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图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 


腾讯 资深 程序 员 ，15 年 编码 经 验 ， 曾 任 
职 网 络 安全 、 互 联网 金融 等 部 门 ， 亲 手 
从 零 建 设 了 财 付 通 业 务 的 Spark 集 群 ， 并 
使 之 同时 支持 SQL 、 实 时 计算 、 机 器 学 
习 等 多 种 数据 计算 场景 。 他 目前 就 职 于 
腾讯 社交 与 效果 广告 部 ， 从 事 大 数据 分 
析 工 作 。 
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腾讯 资深 研究 员 ，2005 年 加 入 腾讯 ， 先 
后 在 无 线 产 品 、 安 全 中 心 、 搜 索 平台 、 
开放 平台 、 社 交 与 效果 广告 部 等 部 门 从 
事 开 发 和 团队 管理 工作 。 他 对 网 络 安 
全 、 搜 索引 擎 、 数 据 挖掘 、 机 器 学 习 有 
一 定 了 解 ， 热 衷 知识 传播 和 分 享 ， 曾 获 
腾讯 学 院 2009 年 年 度 优秀 讲师 。 目 前 ， 
他 就 职 于 社交 与 效果 广告 部 ， 负 责 广告 
系统 相关 的 研发 工作 。 
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Select a username for the new account. Your first name is a reasonable choice. The 
username should start with a lower-case letter, which can be followed by any combination 
of numbers and more lower-case letters. 


Username for your account: 


«G0 Back» «Cont inue» 
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图 2-9 添加 账号 


A good password will contain a mixture of letters, numbers and punctuation and should be 
changed at regular intervals. 


Choose a password for the neu user: 


«G0 Back» «Cont inue» 
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图 2-10 设置 密码 
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[F Spark Ubuntu [正在 运行 ] - Oracle VM VirtualBox 口 | 回 | x 
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At the moment, only the core of the system is installed. To tune the system to your 
needs, you can choose to install one or more of the following predefined collections of 
softuare. 


Choose softuare to install: 


«Continue» 


O P cim da (D) OA Rie crl 


K| 2-11 选择 OpenSSH server 
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图 5-4 对 比 性 能 测试 结果 


图 6-10 Storm 结构 示意 图 
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图 6-11 终端 类 型 分 布 图 示例 
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图 6-12 首页 PV 趋势 图 示例 
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图 8-1 SVM 算法 效果 演示 : 学 习 的 对 象 
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图 8-2 SVM 算法 效果 演示 : 学 习 的 效果 
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图 8-9 ROC 曲线 示例 (来自 维基 百科 ) 
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本 书 是 Spark 实战 指南 ， 全 书 共 分 8 章 。 前 4 章 介绍 Spark 的 部 署 、 工 作 机 制 和 内 核 ， 后 4 章 分 别 通过 
实战 项 目 介 绍 Spark SQL, Spark Streaming, Spark GraphX 和 Spark MLlib 功能 模块 。 此 外 ， 本 书 详细 介绍 
了 常见 的 实战 问题 ， 比 如 大 数据 环境 下 的 配置 设置 、 程 序 调 优等 。 本 书 附 带 的 一 键 安装 脚本 ， 更 能 为 初学 


者 提供 很 大 帮助 。 


本 书 适 合 大 数据 开发 、 运 维 等 相关 从 业 人 员 学 习 参 考 。 
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随 着 互联 网 的 快速 发 展 ， 特 别 是 云 计 算 的 普及 ， 大 数据 日 益 受 到 人 们 的 重视 ,最 近 几 年 全 
球 数据 量 以 每 年 约 50% 的 速度 递增 。 大 数据 正在 事实 上 改变 着 我 们 的 思维 和 生产 方式 ， 未 来 人 
类 社会 的 精神 和 物质 世界 都 将 构建 在 数据 之 上 。2015 年 9 月， 国务 院 印发 《促进 大 数据 发 展 行 
动 纲要 》 确定 了 大 数据 发 展 的 国家 顶层 设计 ， 大 数据 与 各 行 各 业 的 结合 已 是 行业 未 来 发 展 的 必 
然 趋势 。 大 数据 在 中 国 已 经 全 面 生根 发 芽 ， 大 数据 创业 企业 也 迎 来 了 一 波 新 的 发 展 机 会 。 

学 习 大 数据 技术 、 使 用 大 数据 技术 为 各 行 各 业 服 务 是 每 个 YT 人 都 梦 室 以 求 的 事情 。 在 中 国 ， 
BAT 的 大 数据 员工 是 最 幸运 的 一 铬 人 , 因为 他 们 手 上 拥有 最 多 的 数据 , 能 利用 海量 的 服务 器 资源 
捣 腾 海量 的 数据 。 

我 的 老 朋 友 林 世 飞 先生 和 陈 欢 移 生 正 是 这 样 的 幸运 者 ， 他 们 刚 毕 业 就 加 入 了 腾讯 ， 在 腾讯 
多 个 部 门 工作 学 习 银 炼 过 ， 每 天 接触 的 都 是 上 亿 用 户 的 数据 处 理 。 而 现在 他 们 又 在 腾讯 发 展 最 
快速 的 部 门 一 一 社交 与 效果 广告 部 ， 负 责 大 数据 处 理 和 分 析 的 相关 工作 ， 利 用 成 规模 的 Spark 
集群 来 做 海量 数据 的 处 理 ， 根 据 用 户 的 画像 给 用 户 推荐 个 性 化 的 广告 。 除 此 之 外 ， 林 世 飞 和 陈 
欢 本 身 有 着 爱 钻 研 的 性 格 ， 他 们 成 立 了 学 习 小 组 ， 拿 着 各 种 大 数据 技术 的 “锤子 ”， 敲 打 着 各 种 
内 外 部 的 大 数据 “钉子 ”, 来 仔细 分 析 、 对 比 各 种 技术 的 差异 点 以 及 特性 。 在 此 基础 上 ， 他 们 总 
结 成 书 ， 从 运行 原理 到 实际 案例 分 析 ， 覆 盖 了 流 式 计算 、 数 据 仓 库 、 图 计算 、 机 器 学 习 等 算法 
应 用 。 在 我 看 来 ， 这 应 该 是 国内 第 一 本 兼顾 基础 ， 针 对 Spark 的 典型 应 用 都 做 了 案例 讲解 的 实 
践 书 ， 对 于 创业 公司 快速 搭建 大 数据 系统 ， 以 及 科研 院 校 学 生 的 毕业 设计 的 实战 项 目 帮助 意义 
很 大 。 

丰富 的 大 数据 实践 经 验 、 对 大 数据 深入 的 思考 , 这 是 本 书 的 两 大 特点 ， 也 是 林 世 飞 先生 和 陈 
欢 先 生 严 谨 工 作 、 对 技术 深入 研究 的 体现 , 希望 他 们 付出 的 心血 能 为 每 一 位 读者 带 来 价值 , 使 大 
家 深入 地 了 解 Spark 的 工作 原理 、 掌 握 好 Spark 的 优势 ， 为 日 常 工作 创造 更 大 的 价值 。 


季 昕 华 
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从 2003 年 开始 ， 谷 歌 先后 发 表 了 关于 GFS, MapReduce 和 BigTable 的 3 份 重 量 级 论文 。 在 
Apache 软件 基金 会 和 雅虎 等 互联 网 公司 的 支持 下 ， 人 们 在 参考 谷歌 的 论文 基础 上 实现 了 大 量 的 
开源 服务 框架 ( 包括 著名 的 Hadoop, Hive 等 重量 级 产品 )， 特 别 是 开源 项 目 Hadoop 的 出 现 揭 开 
了 在 IT 行业 ， 特 别 是 互联 网 行业 内 大 规模 使 用 大 数据 技术 的 序幕 。 随 着 最 近 几 年 海量 数据 的 持 
续 增 长 和 计算 机 硬件 的 发 展 ， 越 来 越 多 的 新 架构 也 涌现 出 来 。 从 2010 年 开始 ， 美 国 加 州 大 学 伯 
克利 分 校 陆 续 提出 了 多 份 RDD (Resilient Distributed Dataset， 弹 性 分 布 式 数据 集 ) 相关 的 论文 ， 
并 随 之 推出 开源 的 Spark 框架 。 对 比 传统 的 Hadoop ， 拥 有 深厚 学 术 界 背景 的 Spark 把 以 往 的 
MapReduce、 流 式 计算 、 机 器 学 习 算法 等 模型 全 部 统一 起 来 ， 让 数据 控 气 和 机 器 学 习 的 门槛 大 大 
降低 ， 从 而 加 速 了 大 数据 技术 在 各 个 行业 和 产品 里 面 的 普及 。 

手机 QQ 浏览 器 的 大 数据 开发 模式 同样 符合 这 种 演进 趋势 。 2011 4E, 我 们 主要 基于 MapReduce 
模式 和 Hive 进行 一 些 海量 数据 的 分 析 和 统计 工作 ， 而 数据 挖 气 算法 依然 沿用 传统 的 CH+ 和 MPI 
框架 方式 。 随 着 这 两 年 Spark 版 本 的 不 断 更 新 和 功能 的 逐步 强大 , 我 们 已 经 开始 用 Scala 和 Spark 
自 带 的 MLlib 实现 多 个 数据 挖掘 模型 。 由 于 使 用 了 统一 的 RDD 和 MLlib ， 我 们 可 以 快速 实现 各 
种 算法 模型 , 并 在 它们 之 间 更 灵活 地 进行 切换 和 对 比 , 这 也 体现 了 互联 网 快速 迭代 开发 的 效率 和 
ABTest 的 思维 模式 。 

最 近 的 一 年 里 面 , 世 飞 负责 的 广 点 通 项 目 和 手机 QQ 浏览 器 有 深入 的 技术 和 产品 层面 的 合作 ， 
广 点 通 的 广告 推荐 投放 在 手机 浏览 器 里 面 也 取得 了 非常 好 的 效果 。 在 工作 交流 和 讨论 的 过 程 中 ， 
我 深 深 体会 到 世 飞 在 数据 挖掘 算法 上 的 深厚 功力 ， 以 及 在 Spark 技术 上 追求 极致 的 精神 。 这 次 有 
机 会 拜读 世 飞 和 陈 欢 所 著 的 书稿 ,最 大 的 体会 是 与 市 面 上 大 量 的 手册 型 图 书 不 同 , 本 书 不 仅 可 以 
让 读者 逐步 掌握 Spark 的 核心 概念 和 流程 ， 而 且 得 以 吸取 大 数据 业务 特定 场景 下 的 实战 经 验 。 这 
些 真正 经 过 海量 用 户 考验 的 行业 案例 , 对 于 大 数据 的 学 习 人 员 来 说 都 传递 着 非常 宝贵 的 经 验 。 最 
后 ， 衷 心 希望 本 书 可 以 在 为 每 一 位 读者 带 来 Spark 底层 技术 知识 的 同时 ， 更 好 地 让 Spark 普及 到 
更 多 的 大 数据 应 用 场景 当中 。 
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近 些 年 ,大 数据 的 概念 非常 火 ， 且 许多 行业 已 经 开始 从 大 数据 中 获 益 ， 比 如 广告 业 。 越 来 越 
多 的 企业 也 正在 尝试 使 用 大 数据 的 平台 和 方法 来 解决 一 些 现实 问题 , 不 过 , 在 这 个 过 程 中 难免 会 
遇 到 困难 。 因此 , 本 书 旨 在 提供 一 个 非常 具有 可 操作 性 的 指引 , 帮助 读者 亲身 体验 大 数据 的 魅力 。 

Spark 是 最 近 几 年 开始 流行 的 一 种 通用 分 布 式 大 数据 计算 平台 ， 无 论 是 性 能 、 功 能 还 是 易 用 
性 ， 都 在 众多 大 数据 技术 中 名 列 前 茅 ， 可 以 很 好 地 解决 大 数据 领域 的 许多 常见 问题 。 本 书 循序 渐 
进 地 介绍 Spark 的 基本 概念 、 核 心思 想 、 部 署 、 开 发 ， 并 提供 多 个 典型 场景 的 解决 方案 ， 试 图 让 
即便 是 零 基础 的 Spark 读者 也 可 以 从 中 受益 ， 并 让 对 Spark 已 有 所 知 的 读者 可 以 更 深入 地 了 解 其 
运行 机 制 及 精髓 。 


没有 大 数据 平台 的 支持 ， 普 通海 量 数据 的 计算 分 析 极 端 低 效 


笔者 2008 年 毕业 后 即 进入 腾讯 公司 工作 至 今 , 刚 进 公司 时 感觉 真是 “一 夜 暴 富 ”， 因 为 名 下 
的 服务 器 有 上 百 台 ,日 常 工作 除了 后 台 应 用 程序 的 开发 ， 还 要 担负 一 些 运 营 工作 。 然 而 ， 维 护 上 
百 台 机 器 上 产生 的 日 志文 件 就 是 一 个 非常 令 人 头痛 的 问题 。 虽 然 每 台 机 器 都 有 TB 级 的 硬盘 空间 , 
但 还 是 经 常 爆满 ,我 们 经 常 半夜 被 电话 吵 醒 起 来 删 文件 。 此 外 , 产品 人 员 经 常 提出 一 些 数据 统计 
分 析 的 需求 ， 然 而 数据 分 布 在 上 百 台 机 器 上 ， 统 计 效 率 非 常 低 下 。 

面 对 这 样 大 量 数据 的 统计 ,最 常用 的 一 种 处 理 模 式 是 ,选择 一 个 字段 对 数据 进行 散 列 化 , 然 
后 按 散 列 值 的 不 同 分 别 存储 在 单独 的 MySQL 数据 库 表 中 ， 而 这 些 MySQL 节点 分 布 在 上 百 台 机 
器 上 。 需 要 统计 的 时 候 , 我 们 再 写 个 脚本 分 别 去 各 个 MySQL 节点 上 取 数 据 , 或 者 简单 处 理 一 下 ， 
然后 再 汇总 到 一 台 机 器 上 做 处 理 。 

这 种 方法 简单 易 行 , 但 问题 很 多 。 最 大 的 问题 是 计算 过 程 复杂 , 开发 统计 脚本 的 时 间 以 天 计 ， 
因为 原本 一 个 SQL 就 可 以 搞定 的 事情 ， 现 在 需要 分 多 步 进行 , 且 中 间 还 需要 将 大 量 数据 在 多 个 节 
点 上 进行 传输 。 比 如 这 个 简单 的 案例 , 它 需 要 对 数据 按 卫 进行 分 布 统计 , 计算 过 程 至 少 需要 3 步 : 

(1) 去 各 个 MySQL 节点 上 执行 SQL, 按 卫 汇总 统计 ; 

(2) 数据 汇总 到 一 个 节点 上 ， 导 入 MySQL; 

(3) 在 汇总 的 MySQL 节点 上 进行 统计 。 


而 如 果 数 据 没有 拆 分 存储 ， 一 个 SQL 就 可 以 搞定 。 这 只 是 一 个 最 简单 的 例子 ， 如 果 统 计 更 
复杂 一 些 ， 这 样 的 “计算 -汇总 -计算 ”的 过 程 可 能 需要 进行 多 次 。 

这 种 方法 带 来 的 第 二 个 问题 是 散 列 分 布 不 均匀 导致 的 计算 瓶颈 和 资源 浪费 。 为 了 方便 查 数 
据 ， 散 列 的 规则 设计 不 能 太 复杂 ,一 般 是 取 某 个 整数 的 十 进 制 数值 的 前 3 位 或 未 3 位 。 这 样 的 好 
处 是 日 常 定位 数据 位 置 很 方便 , 缺点 是 数据 分 布 不 均匀 ， 总 有 一 些 节 点 会 承载 非常 多 的 数据 ， 而 
另外 一 些 节 点 又 承载 非常 少 的 数据 。 承载 数据 多 的 机 咒 会 成 为 整体 计算 的 瓶颈 ,而 承载 数据 少 的 
机 需 总 是 空间 ， 从 而 造成 资源 的 浪费 。 

所 以 整体 看 来 ， 这 种 方法 的 效率 非常 低下 ， 计 算 本 身 耗 时 虽然 不 多 ， 但 开发 过 程 相当 费时 ， 
如 果 逻 辑 更 复杂 ， 甚 至 需要 一 周 时 间 。 


Hadoop 和 Hive 的 组 合 ， 可 以 解决 大 数据 计算 的 许多 常见 问题 


后 来 我 们 引入 “Hadoop + Hive ”的 解决 方案 , 问题 改善 了 很 多 。 数 据 全 部 存储 在 Hadoop E, 
在 各 节点 上 均匀 分 布 。 在 Hive 上 创建 表 并 导入 数据 ， 设 置 好 分 区 ， 这 样 虽 然 数 据 的 存储 还 是 分 
布 式 的 , 但 从 数据 统计 角度 来 看 像 是 一 个 数据 库 ， 而 不 是 之 前 的 上 千 个 数据 库 表 。 这 样 ， 开发 者 
只 需要 关注 自己 的 业务 逻辑 ， 而 不 需要 关注 底层 数据 的 存储 、 分 区 等 信息 ， 开 发 效率 大 大 提升 。 
虽然 Hive 的 计算 效率 不 是 很 高 ， 运 行 时 间 可 能 是 “脚本 + MySQL” 方 式 的 数 倍 ， 但 一 般 也 只 需 
要 几 十 分 钟 ， 而 节省 的 开发 成 本 是 以 “天 ” 计 的 ， 整 体 效率 大 大 提升 。 

然而 , 随 着 数据 量 的 继续 快速 上 升 , 以 及 大 家 对 数据 的 关注 度 的 提高 ，Hive 平 台 上 的 计算 量 
越 来 越 大 ， 人 们 对 于 计算 的 需求 也 在 变化 。 具体 来 讲 , 一 是 统计 规则 越 来 越 复 杂 , 原来 几 行 SQL 
代码 可 以 搞定 的 统计 越 来 越 少 ， 新 的 统计 需求 动 加 需要 上 百 行 SQL 代码 才能 完成 ， 而 且 量 越 来 
越 多 ; 二 是 越 来 越 多 的 计算 是 SQL 完成 不 了 的 ， 需 要 借助 机 器 学 习 算法 或 图 计算 来 进行 。 

这 些 新 需求 带 来 的 挑战 逐渐 让 “Hadoop + Hive” 方 式 有 些 吃不消 ， 一 些 问题 逐渐 暴露 出 来 : 
一 是 性 能 不 够 高 ， 一 是 简单 的 MR 计算 模式 支持 的 应 用 场景 非常 有 限 。 


Spark 出 现 之 后 ， 性 能 、 功 能 、 易 用 性 都 有 质 的 提升 


Hadoop 的 这 些 问 题 暴露 之 后 , 业界 也 有 一 些 针 对 性 的 优化 方案 。 但 Spark 走 得 更 远 , 在 参考 
MR 的 基础 上 重新 实现 了 一 套 通用 计算 框架 ， 性 能 提升 10-100 倍 ， 尤 其 是 在 机 器 学 习 等 复杂 大 
代 计 算 的 场景 下 ， 人 性 能 提升 最 明显 。 另 外 ， 使 用 场景 除了 SQL 之 外 ，Spark 还 支持 类 似 Storm 的 
实时 流 式 计算 和 图 计算 ， 机 器 学 习 库 也 更 丰富 ， 为 开发 带 来 了 极度 的 便利 。 因 此 ， 越 来 越 多 的 技 
本 人 员 开 始 使 用 Spark 来 替代 Hadoop 的 MR 计算 ， 用 Spark SQL 来 替代 Hive， 但 存储 依然 使 用 
Hadoop HDFS 。 


本 书 会 详细 介绍 Spark， 值 得 注意 的 是 ，Spark 在 设计 伊始 就 充分 考虑 到 了 用 户 体 验 问题 。 


Spark 使 用 Scala 语言 开发 ， 支 持 函 数 式 编程 ， 让 代码 非常 简洁 。 比 如 ，Hadoop MR 编程 中 的 示 
例 程 序 WordCount， 在 Hadoop 下 用 Java 实现 时 代码 有 上 百 行 ， 而 且 还 需要 经 过 编写 代码 文件 、 
编译 、 上 传 执 行 等 过 程 ， 而 Spark 集成 的 Scala 语言 支持 交互 式 编程 ， 进 入 交互 式 模式 后 直接 输 
入 代码 即 可 开始 执行 ， 并 且 代 码 只 有 区 区 几 行 : 

text file - spark.textFile("hdfs://...") 

text file.flatMap(lambda line: line.split()) 

.map (lambda word: (word, 1)) 
.reduceByKey (lambda a, b: a+b) 

交互 式 编程 配合 函数 式 编程 ， 使 得 Spark 编程 非常 容易 上 手 。 笔 者 曾经 考虑 要 不 要 让 Spark 
支持 bash 这 类 脚本 语言 ， 但 最 终 觉 得 Scala 足 锋 。 本 书 附录 提供 了 Scala 语法 的 简单 参考 ， 相 信 
有 一 定编 程 基础 的 读者 会 非常 容易 上 手 。 

经 常 有 人 会 问 : 为 何 Spark 会 比 Hadoop 快 那么 多 呢 ? 我 也 曾 反复 思考 过 , 在 此 抛砖引玉 了 。 
Spark 和 Hadoop 都 是 非常 优秀 的 开源 项 目 , 代码 实现 及 架构 已 经 非常 优秀 了 , 差别 应 该 不 在 实现 
层面 。 大 多 数 人 认为 Spark HE Hadoop 快 是 因为 大 量 使 用 内 存 ， 正 因此 ，Spark 一 开始 被 称 作 内 存 
计算 ,但 我 认为 还 有 一 个 更 重要 的 原因 ， 那 就 是 核心 数据 结构 。Spark 使 用 RDD ( 弹性 分 布 式 数 
据 集 ， 读 者 可 以 将 其 想象 成 一 个 分 布 式 的 大 数组 ) 作为 核心 数据 结构 ( 相 比 之 下 Hadoop 没有 核 
心 数据 结构 ， 只 有 Map/Reduce 计算 模式 )， 在 此 基础 上 提供 了 许多 计算 函数 ， 类 似 Hadoop 下 的 
Map/Reduce 函数 , 但 数量 更 多 ,还 可 以 无 限 扩 充 。 这 样 的 好 处 是 Spark 的 任务 粒度 更 小 ， 原 先 在 
Hadoop 下 一 个 Map 或 Reduce 实现 的 功能 , 在 Spark 下 可 能 会 被 拆 分 成 多 个 Job。 如 果 把 Hadoop 
PAES RETEA, IA Spark 的 Job 就 是 钠 子 里 面 的 碎 石 子 ， 因 此 相同 钠 子 可 以 装 
得 更 多 。Spark 这 样 细 粒 度 的 任务 调度 , 再 配合 上 内 存 的 充分 利用 , 最终 让 性 能 提升 了 一 个 台阶 。 

还 有 一 个 有 意思 的 现象 : 大 数据 领域 的 技术 很 多 是 基于 Java 开发 的 ，Hadoop、Hive、HBase 
都 是 ，Spark 使 用 的 Scala 最 后 也 是 转化 成 JVM 字 节 码 运 行 。Hadoop 虽然 被 诉 病 性 能 低 ， 但 也 没 
有 基于 C++ 的 开源 版 本 出 现 ， 究 其 原因 ， 除 了 大 家 经 常 提 到 的 这 些 开 源 系 统 的 创始 人 喜欢 Java, 
以 及 Java 对 于 跨 平 台 的 强 有 力 支 持 ， 我 猜测 可 能 还 有 如 下 几 个 原因 。 一 是 因为 Java 在 大 型 系统 
开发 方面 的 便利 性 ,有 非常 多 的 库 可 以 使 用 。 这 样 一 来 ,在 系统 最 初 的 探索 阶段 可 以 节省 大 量 人 
Jj, mi Spark 使 用 的 Scala 语言 因为 支持 函数 式 编程 ， 代 码 量 进 一 步 精 简 了 好 几 倍 ， 比 如 Spark 
中 的 SQL 优化 执行 引擎 只 用 2000 行 左 右 的 代码 就 实现 了 ， 而 且 表 现 接近 于 手写 代码 ， 完 全 受益 
于 语言 在 开发 上 的 便利 性 。 二 是 因为 大 数据 计算 场景 下 ,系统 的 瓶颈 经 常 不 在 于 计算 ， 而 是 网 络 
传输 和 磁盘 读 写 , 此 时 CPU 反而 不 是 瓶颈 , 所 以 无 论 Hadoop 和 Spark 都 在 这 方面 做 了 大 量 优 化 ， 
语言 性 能 方面 的 弱势 不 那么 明显 了 。 比 如 Hadoop 和 Spark 中 最 重要 的 shuffle 机 制 ， 就 是 为 解决 
网 络 传输 而 设计 的 , 而 且 不 断 优 化 , 每 次 优化 都 可 以 在 整体 上 提升 性 能 。 三 是 在 Hadoop 和 Spark 
这 类 通用 计算 平台 上 都 遵循 一 个 理念 ， 就 是 “宁可 移动 计算 ， 不 要 移动 数据 "”， 这 正 是 Java 语言 
强大 的 序列 化 功能 发 威 的 时 候 。 当 然 C++ 也 可 以 实现 , 性 能 可 能 会 更 优 , 但 开发 成 本 可 能 不 是 一 
般 小 公司 能 承受 得 了 的 , 也 只 有 谷歌 这 样 技 术 、 财 力 雄 厚 的 公司 才 有 可 能 实现 。 EKE, Hadoop 


的 理论 基础 也 来 自 谷歌 的 论文 。 


大 数据 平台 众多 ， 我 们 要 怎么 选 呢 


大 数据 热门 之 后 出 现 了 非常 多 的 大 数据 技术 ,有 Hadoop .Hive HBase Flume , Kafka Lucene, 
Spark, Storm 等 , 还 有 很 多 NoSQL 技术 可 以 归 入 大 数据 ， 比 如 MongoDB、CouchDB、Cassandra 
等 。 有 人 列举 过 大 数据 技术 族谱 ， 其 中 至 少 上 百 种 技术 。 面 对 如 此 多 的 技术 , 我 们 往往 会 产生 疑 
惑 : 到 底 该 如 何 选择 ? 这 里 有 一 个 建议 : 在 充分 理解 自身 需求 的 基础 上 ， 挑 选 最 合适 的 。 
比如 要 实现 这 样 一 个 任务 : 有 10 亿 条 用 户 画 像 数据 ， 里 面 记 录 了 用 户 的 性 别 、 年 龄 、 地 域 
等 信息 ， 输 入 一 个 用 户 包 ， 只 包含 用 户 账号 ， 数 量 平均 百 万 级 ， 最 多 1000 万 ,希望 查询 这 些 用 
户 的 性 别 、 年 龄 、 地 域 等 属性 的 分 布 信息 。 

面 对 这 样 的 问题 ， 如 果 我 们 贸然 找 一 个 开源 系统 部 署 上 , 刚 开 始 的 学 习 成 本 高 不 说 ， 即 便 可 
以 用 , 最 后 也 不 一 定 能 证 明 这 个 方案 到 底 是 好 还 是 不 好 。 因 为 从 来 没有 最 好 的 方案 ,只 有 当前 最 
合适 的 方案 , 不 但 要 跟 其 他 方案 比 ， 还 要 跟 问 题 本 身 的 需求 比 。 比 如 ,一 开始 就 有 一 些 有 经 验 的 
前 辈 建 议 使 用 Solr 或 ElasticSearch， 这 两 个 系统 固然 非常 强大 ,但 大 家 都 知道 是 为 搜索 引擎 这 样 
的 场景 设计 的 ， 而 不 是 为 这 个 问题 场景 设计 的 ， 中 间 难 免 有 些 匹配 度 的 问题 ， 不 一 定 最 合适 。 而 
H., 如 果 不 分 析 一 下 面 对 的 问题 场景 , 那么 在 研究 Solr 或 ElasticSearch 时 也 没有 针对 性 , 只 能 “全 
面 开 花 "， 结 果 必 然 费时 费力 ， 可 能 还 没有 好 的 结果 。 要 知道 ， 单 Solr 的 文档 就 有 几 百 页 ， 全 部 
看 完 至 少 需要 一 周 时 间 。 


因此 我 们 先 来 分 析 一 下 当前 的 问题 。 如 果 所 有 数据 都 在 数据 库 中 , 那么 这 个 计算 可 以 用 SQL 
实现 ( 以 统计 “性 别 ” 属 性 为 例 ， 其 他 与 此 类 似 ): 


select 

性 别 ，count (1) 
from 

用 户 号 码 包 表 (1000W) join 画像 表 (10 亿 ) 
group by 

性 别 


EC 


显然 计算 的 瓶颈 在 于 join RE, join 之 后 需要 处 理 的 数据 量 从 10 亿 下 降 到 1000 77, 3X 
可 以 大 大 降低 后 续 的 聚合 统计 的 成 本 。 而 对 于 join 操作 来 说 ， 如 果 两 边 的 数据 都 已 经 排 好 序 ， 
那么 join 的 算法 复杂 度 只 是 O(n)， 非 常 低 。 由 于 10 亿 条 画像 数据 更 新 频率 很 低 ， 我 们 可 以 提 
前 做 好 排序 预 处 理 ， 因 此 最 理想 的 计算 过 程 可 以 分 为 这 么 几 步 : 

(1) 对 输入 的 用 户 号 码 包 进行 排序 ; 

(2) 排序 后 的 号 码 包 与 已 经 有 序 的 画像 数据 进行 join， 筛 选 出 号 码 包 的 属性 ; 

(3) 对 筛选 后 的 少量 数据 进行 聚合 统计 。 


az 
qi 
CA 


有 了 对 问题 的 理解 ， 我 们 再 简单 对 比 一 下 各 种 方案 的 优 劣 〈 使 用 相同 的 机 器 ， 集 群 数量 为 
10 台 )， 参 见 下 表 。 


5 ž 实现 过 程 总 用 时 缺 ”点 
Hive 集 群 (1) 画像 数据 和 号 码 包 都 存储 | > 1 小 时 机 器 资源 占用 多 ， 维 护 成 本 高 
(10 台 ) 为 一 张 表 ; 

(2) 对 两 张 表 进行 join 操作 ， 得 
选 出 号 码 包 的 属性 ， 
G) 对 每 个 属性 进行 统计 
Spark SQL 同 Hive 10 分 钟 
(105) 
Spark MR 思路 同上 ， 但 可 以 让 画像 数据 | 8 分 钟 
(104) 提前 排 好 序 ， 并 且 两 张 表 使 用 
相同 的 分 区 策略 ， 这 样 可 以 提 
升 join 的 效率 
Bash (单机 单 核 ) | (D 对 号 码 包 进行 排序 ， 12 分 钟 单 点 
D 号 码 包 文件 与 有 序 的 画像 
文件 进行 join， 筛 选 出 号 码 包 
的 属性 ， 
(3) 对 筛选 出 的 结果 按 维度 分 
别 统计 
Bash 思路 同上 ， 但 把 大 文件 拆 成 小 | 3 分 名 
(单机 多 核 ) 文件 ， 并 发 执行 磁盘 替代 CPU 成 为 瓶颈 , 如 


果 有 多 个 物理 磁盘 ,性 能 
以 进一步 提升 至 1 分 钟 


从 零 开 发 一 个 专 | 思路 同上 ， 但 所 有 的 操作 都 在 | <0.5 分 名 开发 成 本 太 高 
有 分 布 式 系统 | 内 存 中 ， 可 能 需要 多 台 机 器 ee 
(3~10 台 ) 
Solr (1) 设置 集群 为 多 shard 结 构 , 画 | 1 分 钟 没有 筛选 ， 每 个 维度 的 查询 都 搜 
(3 台 机 器 ) 像 数据 提前 导入 ， 索 了 所 有 10 亿 画像 数据 
D) 新 的 画像 数据 作为 新 的 字 Facet 特 性 必须 指定 一 个 UniqueKey， 
RFA; 导致 号 码 包 导入 时 需要 多 处 理 一 
个 UniqueKey 字 段 


G) 使 用 join 操作 和 Facet 特 性 
对 各 个 维度 分 别 统计 

通过 分 析 不 难 发 现 ， 有 很 多 技术 可 以 解决 这 个 问题 ， 连 最 不 起 眼 的 bash 都 可 以 ， 而 且 单 机 
的 性 能 就 接近 甚至 超过 10 fi Spark 集群 的 性 能 。 如 果 单 独 开发 一 个 专 有 系统 ， 性 能 更 是 会 得 到 
指数 级 提升 。 

然而 , 通过 这 些 对 比 依然 不 足以 确定 我 们 的 最 终 方案 ，, 因为 对 于 需求 本 身 还 有 很 多 疑问 ， 比 
如 系统 的 访问 频率 、 扩 容 要 求 、 需 求 变 更 ， 甚 至 还 有 团队 的 研发 能 力 等 。 如 果 回 答 了 这 些 问题 ， 
那么 最 终 的 决策 只 是 水 到 渠 成 的 事情 。 


本 书 内 容 
全 书 共 分 8 章 ， 外 加 一 篇 附录 。 前 4 章 介绍 Spark 本 身 ， 包 括 部 署 、 工 作 机 制 、 内 核 等 。 全 
书 的 重点 在 第 5 章 ~ 第 8 章 ， 每 章 不 但 深入 浅 出 地 介绍 Spark 的 一 个 功能 模块 ， 而 且 包含 一 个 实 


战 项 目 , 项目 利用 国内 互联 网 的 真实 数据 为 案例 , 搭建 一 个 产品 和 平台 输出 。 这 些 例 子 每 个 都 可 

以 是 一 个 独立 的 大 项 目 。 这 在 BAT 等 公司 中 ， 动 辆 都 是 有 几 十 上 百人 的 项 目 团队 ， 而 笔者 基于 

Spark 快速 搭建 了 一 个 原型 ， 为 创业 者 提供 了 很 好 的 入 门 示例 。 此 外 ， 书 中 还 详细 介绍 了 各 种 可 

能 遇 到 的 实战 问题 ， 比 如 大 数据 环境 下 的 配置 设置 、 程 序 的 调 优 等 。 随 书 带 一 键 安装 脚本 ， 以 便 

为 初学 者 提供 很 多 帮助 。 

D 第 1 章 概 述 大 数据 的 发 展 状况 ， 以 及 Spark 的 起 源 、 特 点 、 优 势 、 未 来 等 。 

O 第 2 章 介 绍 Spark 部 署 和 编程 。 作 者 首先 带领 读者 在 本 地 单机 下 体验 Spark 的 基本 操作 ， 
然后 部 署 一 个 包括 ZooKeeper, Hadoop, Spark 的 可 实际 应 用 的 高 可 用 集群 。 并 且 ， 这 一 
章 还 介绍 了 笔者 合作 开发 的 一 个 自动 化 部 署 工 具 , 最 后 介绍 了 Spark 编程 的 基础 知识 ， 以 
及 如 何 打包 提交 至 集群 上 运行 。 

口 第 3 章 介 绍 Spark 底层 的 工作 机 制 , 包括 调度 管理 、 内 存 管 理 、 容 错 机 制 、 监 控 管理 以 及 

Spark 程序 配置 管理 ， 这 对 理解 Spark 程序 的 运行 非常 有 帮助 。 

O 第 4 章 深入 Spark 内 核 , 并 结合 源码 , 介绍 了 核心 结构 RDD, RDD 对 象 的 Transformation 
和 Action 操作 是 如 何 实现 的 、sparkcontext 对 象 及 初始 化 过 程 、DAG 调度 的 工作 流程 。 
了 解 这 些 内 容 可 以 帮助 读者 编写 出 高 质量 的 Spark 程序 代码 。 

O 第 5 章 介绍 Spark SQL, 可 以 代替 Hive, 用 于 搭建 一 个 企业 级 的 数据 仓库 。 案 例 基 于 淘宝 
的 电 商 数据 建立 电 商 数据 仓库 ， 并 以 日 带 运营 工作 为 例 ， 通 过 电 商 数据 库 分 析 电 商 运营 
中 的 各 类 问题 。 

O 第 6 章 介绍 Spark 实 时 流 式 计算 ， 类 似 于 Storm， 但 吞吐 量 方面 更 有 优势 。 案 例 是 基于 一 
个 站 点 的 Web 日 志 建 立 一 个 类 似 百度 统计 的 实时 统计 系统 ， 是 各 种 实时 系统 典型 的 参考 
例子 。 

O 第 7 章 介绍 Spark 的 图 计算 。 案 例 基 于 新 浪 微 博 2000 万 的 关系 链 数据 ， 讲 解 了 如 果 利 用 

图 计算 来 实现 社交 关系 链 的 挖掘 ， 比 如 转 蜜 的 发 现 、 粉 丝 团 伙 的 发 现 等 。 

口 第 8 章 介绍 Spark 的 机 器 学 习 库 。 案 例 基于 某 个 搜索 引 苟 的 点 击 日 志 ， 建 立 了 一 个 搜索 广 

告 点 击 率 预 佑 系统 ,广告 点 击 率 预 佑 是 各 家 互联 网 系统 的 核心 系统 , 公开 的 实战 项 目 不 多 。 

O 附录 为 Scada 语言 参考 ， 方 便 第 一 次 接触 Scala 语言 的 读者 快速 上 手 ， 体验 Spark 编程 。 
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数据 只 是 工具 ， 最 终 还 是 要 用 于 创造 价值 ， 大 数据 只 是 一 种 新 的 实践 。 


1.1 大 数据 的 发 展 及 现状 


大 数据 是 一 个 很 热门 的 话题 ， 但 它 是 从 什么 时 候 开 始 兴起 的 呢 ? 

“大 数据 ”( big data) 这 个 词 最 早 在 UNIX 用 户 协会 的 会 议 上 被 使 用 ， 来自 SGI 公 司 的 科学 家 
在 其 文章 “大 数据 与 下 一 代 基础 架构 ”( "Big Data and the Next Wave of InfraStress”， 人 参见 
http://static.usenix.org/event/usenix99/invited talks/mashey.pdf ) 中 用 它 描述 数据 的 快速 增长 。 那么 ， 
怎样 才 叫 “大 数据 ” 呢 ? META 集 团 (已 被 Gartner 收 购 ) 的 一 份 报 告 提 出 大 数据 的 特征 “3V”， 
即 大 量 ( volume )、 多 样 (variety )、 快 速 ( velocity )。 如 今 ， 大 家 更 普遍 地 使 用 “4V” 来 描述 大 
数据 的 特征 ， 即 增加 了 第 四 个 V 一 一 价值 C value )。 

从 数据 量 上 来 看 ， 人 们 通常 认为 当 一 个 计算 单元 容纳 不 下 要 处 理 的 数据 , 就 是 在 面 对 大 数据 
To 其 实 早 在 电脑 被 发 明之 前 , 我 们 做 的 人 口 统计 、 气象 预报 等 工作 就 属于 大 数据 范畴 了 。 下 面 ， 
让 我 们 看 看 大 数据 时 代 所 面临 的 问题 。 


1.1.1 大 数据 时 代 所 面临 的 问题 


我 们 拿 搜 索引 擎 举例 。 搜 索引 苟 需 要 把 网 上 的 多 数 网 页 抓 取 下 来 进行 分 析 ， 并 建立 索引 ， 
这 样 在 我 们 搜索 一 个 词 的 时 候 ， 它 才能 在 毫秒 级 别 返 回 结 果 。 我 们 假设 每 个 网 页 平均 的 大 小 为 
20 KB ， 大 概 有 价值 的 中 文 网 页 有 200 亿 个 页 面 ， 不 过 考虑 到 压缩 情况 ， 大 概 总 共有 400 TB 的 大 
小 。 那 么 ， 一 台 计 算 机 以 30 MB/s-35 MB/s 的 速度 从 硬盘 读 写 ， 大 概 需 要 4 个 多 月 ， 这 还 不 包括 
在 这 些 数据 上 做 复杂 的 分 析 工 作 。 因 此 ， 我 们 通常 需要 一 个 计算 机 集群 来 完成 相关 的 工作 。 

有 人 可 能 会 说 , 我 们 的 计算 机 处 理 能 力 在 以 指数 级 增长 ,这 样机 器 能 够 处 理 更 多 的 数据 。 是 
Hy, 这 也 是 事实 , 但 是 这 些 计 算 机 生产 数据 的 能 力也 在 以 指数 级 增长 。 而且, 每 人 拥有 的 设备 数 
在 增加 ， 如 今 除 了 个 人 电脑 ， 越 来 越 多 的 人 拥有 智能 手机 、 平 板 电脑 、 智 能 家 居 、 穿 戴 设 备 等 。 
有 数据 表明 ，90% 的 数据 是 过 去 两 年 左右 时 间 内 产生 的 。 
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我 们 面 对 的 最 直接 的 问题 是 如 何 存储 和 计算 大 数据 。 接 下 来 仍 以 搜索 引擎 作 例 子 。 假 设 每 台 
机 器 存储 400 GB 的 数据 , 那么 我 们 需要 1000 台 机 器 来 存储 这 些 数据 。 下 面 来 分 析 下 1000 台 服务 器 
的 故障 率 。 

表示 一 台 服 务 器 是 否 正常 工作 ,=0 表 示 正 常 工作 , X^ 1 表示 不 正常 工作 。 服 务 器 一 个 月 
内 发 生 故 障 的 概率 是 e，P(X = 0) =1- s， 那 么 1000 台 电脑 都 正常 工作 的 概率 是 (1 - 6) 99, 假设 故 
障 率 e = 0.001， 所 有 1000 台 服务 器 1 个 月 内 正常 工作 的 概率 只 有 0.37， 不 到 一 半 。 

所 以 ， 随 着 数据 的 增加 、 机 顺 的 增加 ， 处 理 数据 的 技术 也 变 得 越 来 越 复 林 了 。 为 了 解决 这 些 
问题 ， 各 种 大 数据 解决 方案 诞生 了 。 如 今 ， 程 序 员 在 100 台 机 器 上 编程 和 在 1000 台 上 面 编程 没有 
太 多 区 别 ， 不 需要 考虑 容错 性 、 并 发 等 问题 。 

随 着 云 计算 技术 的 发 展 , 不 仅 大 数据 处 理 的 复杂 度 降低 了 , 成 本 也 大 大 降低 ， 云 计算 服务 商 
的 IaaS (Infrastructure as a Service， 基 础 设施 即 服务 ) 支持 按 天 付费 ， 而 且 可 以 动态 按 需 扩容 。 
在 云 计算 服务 商 的 帮助 下 ， 如今 一 个 小 创业 公司 都 能 够 快速 开发 和 部 署 大 数据 应 用 。 云 计算 服务 
商 的 国外 领导 者 是 Amazon AWS ， 国 内 主要 是 阿里 云 、 腾 讯 云 和 UCloud。 
另外 一 个 困扰 我 们 的 问题 是 : 数据 这 么 多 , 我 们 要 存储 哪些 数据 ,以 及 存储 多 长 时 间 的 数据 。 
通常 我 们 认为 , 从 一 个 字 节 可 以 获取 多 少 价值 , 存储 它 又 要 花费 多 少 费 用 , 如 果 两 者 的 比值 大 于 1， 
就 值得 存储 更 多 数据 。 大 数据 还 有 一 个 特点 ， 就 是 存储 单条 数据 的 价值 可 能 不 大 ， 拥 有 更 多 数据 
时 ， 就 有 价值 了 。 举 一 个 简单 的 例子 。 如 果 我 们 只 有 一 个 用 户 的 访问 日 志 ， 显 然 没 有 太 大 价值 ， 
但 是 如 果 拥 有 全 站 的 用 户 访问 日 志 , 我 们 就 有 可 能 对 数据 进行 分 析 , 从 而 发 现 潜 在 规律 和 趋势 等 。 

解决 了 大 数据 存储 和 计算 的 问题 之 后 , 如 何 对 数据 进行 分 析 呢 ? 这 是 一 个 复杂 的 技术 。Spark 
的 很 多 库 就 是 为 了 解决 不 同 场景 下 的 分 析 任 务 而 存在 的 ， 比 如 MLlib 库 就 是 为 解决 各 种 机 器 学 习 
问题 开发 的 库 ， 这 些 问题 包括 分 类 问题 、 回 归 问 题 、 聚 类 等 。GraphX 就 是 为 了 分 析 社 交 网 络 等 
应 用 开发 的 库 。 

大 数据 时 代 面 临 的 另外 一 个 问题 就 是 大 数据 交易 ， 数 据 本 身 已 成 为 一 种 可 以 交易 的 商品 。 
2015 年 9 月 5 日 国务 院 印 发 了 《促进 大 数据 发 展 行动 纲要 》 纲要 提出 要 建设 公共 数据 资源 开放 的 
统一 开放 平台 ,“2020 年 底 前 ， 逐 步 实现 信用 、 交 通 、 医 疗 、 了 卫生、 就 业 、 社 保 、 地 理 、 文 化 、 
教育 、 科 技 、 资 源 、 农 业 、 环 境 、 安 监 、 金 融 、 质 量 、 统 计 、 和 气象 、 海 洋 、 企 业 登 记 监 管 等 民生 
保障 服务 相关 领域 的 政府 数据 集 向 社会 开放 ”， 以 及 “到 2020 年 ， 培 育 10 家 国际 领先 的 大 数据 核 
心 龙头 企业 ，500 家 大 数据 应 用 、 服 务 和 产品 制造 企业 ”。 


1.1.2 ”谷歌 的 大 数据 解决 方案 


谷歌 的 搜索 引擎 是 搜索 引擎 界 的 领导 者 ， 很 重要 的 原因 之 一 就 是 谷歌 在 大 数据 技术 方面 领 
先 。2003 年 开始 ， 谷 歌 先后 发 表 了 GFS 、MapReduce 、BigTable 等 几 篇 论文 ， 其 中 2004 年 Aik 
的 Jeff 等 发 表 了 论文 “MapReduce: Simplified Data Processing on Large Clusters”， 提 出 了 大 数据 分 
析 的 范式 MapReduce。 虽 然 MapReduce 范 式 在 函数 式 编程 中 为 人 所 熟知 ， 但 是 该 论文 提供 了 在 集 
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群 环境 中 该 范式 的 可 扩展 性 实现 , 使 得 程序 员 可 以 利用 机 咒 集 群 处 理 更 多 数据 ,而 不 需要 考虑 容 
灾 和 并 发 等 问题 。 谷歌 的 三 大 论文 引发 了 人 们 在 大 数据 领域 的 大 量 研究 , 直接 导致 了 Hadoop 的 出 
现 一 一 MapReduce 范 式 的 开源 实现 。 如 今 Hadoop ， 包 括 MapReduce 与 分 布 式 文件 系统 (HDFS ), 
已 经 成 为 数据 处 理 的 事实 标准 。 大 量 的 工业 界 应 用 , 例如 腾讯 、 百 度 、 阿 里 巴巴 、 华 为 、 迪 斯 尼 、 
沃尔玛 、AT&T 都 已 经 有 自己 的 Hadoop 集 群 。 

MapReduce 能 做 的 事情 很 多 ， 包 括 实 现 各 种 机 器 学 习 算 法 (参见 http://machinelearning. 
wustl.edu/mlpapers/paper files/NIPS2006 725.pdf )。 


但 MapReduce 不 是 唯一 的 大 数据 分 析 范 式 ， 有 一 些 场景 是 不 适合 使 用 MapReduce 的 ， 比 如 处 
理 网 状 的 数据 结构 时 ， 这 要 求 能 够 处 理 顶 点 和 边 的 增加 和 减少 操作 ， 并 在 所 有 节点 进行 运算 等 。 

典型 的 场景 就 是 在 搜索 引擎 中 链接 地 图 计算 和 社交 网 络 分 析 。 谷歌 也 建设 了 基于 图 的 计算 系 
统 Pregel, 允许 连通 的 节点 之 间 互 相交 换 信 息 。Pregel 基 本 运算 是 节点 之 间 的 超级 步骤 ( superstep ), 
每 个 顶点 都 有 一 个 用 户 自 定义 的 计算 函数 和 值 , 所 有 的 边 都 可 以 并 行 计算 , 顶点 可 以 通过 边 来 发 
送 消息 并 与 其 他 顶点 交互 数据 ， 可 以 聚合 所 有 节点 的 信息 ， 计 算 最 大 最 小 值 等 。Spark 上 也 能 
很 方便 地 支持 图 计算 应 用 。 事 实 上 ， 最 初 AMPLabs 团 队 仅 用 数 百 行 代 码 就 开发 出 了 整个 Pregel， 
如 今 图 计算 库 GraphX 已 经 是 Spark 主 要 的 库 之 一 。 

当然 ， 并 不 是 说 谷歌 出 现 前 就 不 存在 大 数据 。 我 们 使 用 的 很 多 方法 和 技术 都 是 过 去 已 有 的 ， 
比如 分 布 式 系统 广泛 应 用 的 Paxos 算 法 ， 是 莱 斯 利 . 兰 伯 特 〈Leslie Lamport ) 于 1990 年 提出 的 一 
种 基于 消息 传递 的 一 致 性 算法 。 


1.1.3 Hadoop 生态 系统 


Hadoop 是 谷歌 大 数据 解决 方案 的 开源 实现 , 使 用 Java 语 言 开发 ,其 核心 主要 是 两 部 分 : 分 布 
式 文件 系统 ( HDFS ) 和 MapReduce。 为 了 处 理 更 多 的 应 用 场景 ， 在 此 基础 上 ， 经 过 业界 巨头 雅 
虎 等 ， 以 及 开源 界 其 他 力量 的 努力 ， 人 们 建设 了 很 多 其 他 的 重要 系统 ， 这 里 我 们 简单 介绍 下 。 

Hive 是 在 HDFS 和 MapReduce 上 提供 一 个 类 似 于 SQL 风 格 的 抽象 屋 ， 非 常 容易 上 手 。 


用 户 可 以 用 数据 库 、 表 的 概念 来 管理 数据 ， 使 用 SQL 来 访问 、 计 算 ， 不 需要 写 MapReduce 程 
序 。SQL 语 法 非常 类 似 于 关系 型 数据 库 ， 支持 常见 的 Select、Join、Group by、Insert 等 操作 。 


HBase 是 基于 Hadoop 的 非 关 系 型 数据 库 ， 有 具备 分 布 式 、 可 扩展 的 特点 ， 支 持 在 几 十 亿 行 、 数 
百 万 列 的 一 张大 表 上 进行 实时 、 随 机 地 读 写 访问 。 典 型 场景 有 各 种 数据 仓库 ， 比 如 淘宝 用 户 历史 
订单 查询 等 。 

ZooKeeper 是 提供 分 布 式 应 用 程序 协调 服务 的 系统 ， 是 谷歌 的 Chubby 一 个 开源 的 实现 ， 是 
Hadoop 和 HBase 的 重要 组 件 。 比 如 ，Spark 为 了 保证 高 可 用 ， 同 时 运行 多 台 Master 节 点 ,但 只 有 一 
台 是 活跃 的 ， 其 他 都 处 于 热 备 状态 ， 通 过 ZooKeeper 可 以 协调 选择 出 当前 活跃 的 节点 ， 当 这 个 活 
跃 节点 异常 时 ， 再 从 剩 下 的 热 备 节点 中 重新 选择 一 台 活 跃 节点 。 
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Hadoop 是 一 个 批 处 理 系统 , 不 擅长 实时 计算 , 如 果 需 要 实时 或 准 实时 的 分 析 , 可 以 使 用 Storm 
( Twitter), S4 (雅虎 )、Akka 等 系统 。 另 外 ，Hadoop 也 不 擅长 复杂 数据 结构 计算 ， 比 如 前 面 提 到 
的 图 计算 ， 可 以 利用 的 开源 系统 有 GraphLab 和 Spark 的 GraghX 库 。 


从 Hadoop 2.0 开 始 ，Hadoop YARN 将 资源 调度 从 MapReduce 范 式 中 分 离 出 来 。YARN 已 经 成 
为 通用 的 资源 管理 系统 , 可 为 上 层 应 用 提供 统一 的 资源 管理 和 调度 ,， Spark 支持 部 署 在 YARN 管 理 
的 集群 上 。 

在 工业 界 大 规模 应 用 Hadoop 生 态 的 系统 ,还 要 面临 部 署 、 排 错 、 升 级 等 问题 。 为 解决 这 些 问 
题 ， 降 低 Hadoop 应 用 门槛 ,我 们 可 以 使 用 Hadoop 商 用 解决 方案 的 提供 商 的 产品 ， 目 前 比较 成 熟 
的 提供 商 有 Cloudera、Hortonworks 和 MapR。 

Cloudera 由 Doug Cutting 和 Jeff Hammerbacher 共 同 创建 ， 为 合作 伙伴 提供 Hadoop 的 商用 解决 
方案 ,主要 包括 支持 、 咨 询 服 务 、 培 训 。Cloudera 产 品 主要 为 CDH、Cloudera Manager, Cloudera 
Support。CDH 是 Cloudera 的 Hadoop 发 行 版 ， 完 全 开源 ， 比 Apache Hadoop 在 兼容 性 、 安 全 性 、 稳 
定性 上 有 增强 。Cloudera Manager 是 集群 的 软件 分 发 及 管理 监控 平台 ， 可 以 在 几 个 小 时 内 部 署 好 
一 个 Hadoop 集 群 ， 并 对 集群 的 节点 及 服务 进行 实时 监控 。Hortonworks 是 雅虎 与 硅谷 风 投 公司 
Benchmark Capital 合 资 组 建 的 公司 ， 公 司 成 立 之 初 吸纳 了 大 约 30 名 专门 研究 Hadoop 的 雅虎 工程 
师 ， 这 些 工程 师 均 在 2005 年 开始 协助 雅虎 开发 Hadoop ， 贡 献 了 Hadoop 80% 的 代码 。Hortonworks 
的 主打 产品 是 Hortonworks Data Platform ( HDP )。 


目前 CDH 和 HDP 在 国内 普及 率 不 高 , 国内 巨头 使 用 的 都 是 在 Apache Hadoop 开 源 版 本 上 自己 
修改 的 定制 版 本 ， 每 家 公司 的 集群 规模 也 都 有 几 千 台 。 国 内 的 公司 也 开始 给 开源 社区 同步 部 分 
修改 ， 根 据 不 完全 统计 ， 华 为 有 4 个 Hadoop committer ， 小 米 有 3 个 HBase committer, ， 腾 讯 有 一 个 
Storm 的 committer， 阿 里 巴巴 有 一 个 Spark 的 committer 等 。 相 信人 往 开源 社区 贡献 代码 是 未 来 的 一 
种 趋势 。 


1.2 Spark 应 时 而 生 


Hadoop MapReduce 可 以 解决 很 多 通用 计算 的 问题 ， 但 在 某 些 场 景 下 效率 不 高 ，Spark 就 是 在 
这 个 场景 下 诞生 的 。 


1.2.1 Spark 的 起 源 

机 器 学 习 算 法 通常 需要 对 同一 个 数据 集合 进行 多 次 迭代 计算 , 而 MapReduce 中 每 次 迭代 都 会 
涉及 HDFS 的 读 写 ， 以 及 缺乏 一 个 常 驻 的 MapReduce 作 业 ， 因 此 每 次 迭代 需要 初始 化 新 的 
MapReduce 任 务 。 这 时 ，MapReduce 就 显得 效率 不 高 了 。 同 时 ， 基 于 MapReduce 之 上 的 Hive、Pig 
等 技术 也 存在 类 似 问 题 。 

Spark 作 为 一 个 研究 项 目 , 诞生 于 加 州 大 学 伯克利 分 校 AMP 实 验 室 ( Algorithms, Machines, and 
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People Lab ) AMP XR ZWA REMENA E 2] XS TA TEIG F, Hadoop MapReduce 表 现 
得 效率 低下 。 为 了 迭代 算法 和 交互 式 查 询 两 种 典型 的 场景 ，Matei Zaharia 和 合作 伙伴 开发 了 Spark 
系统 的 最 初版 本 。2009 年 Spark 论 文 发 布 ，Spaik 项 目 正 式 诞 生 ， 在 某 些 任 务 表现 上 ，Spark 相 对 于 
Hadoop MapReduce 有 10 ~ 20 倍 的 性 能 提升 .2010 年 3 月 Spark 开 源 , 且 在 开源 社区 下 发 展 迅 速 。2014 
^ESH, Spark 1.0 正 式 发 布 ， 如 今 已 经 是 Apache 基 金 会 的 顶级 项 目 了 。 


1.2.2 Spark 的 特点 


Spatk 刚 出 现时 ， 常 常 被 大 家 概括 为 内 存 计算 ,这 不 是 没有 缘由 的 。 在 典型 应 用 中 ，Spark 读 
取 HDFS 中 的 文件 ， 加 载 到 内 存 ， 在 内 存 中 使 用 弹性 分 布 式 数据 集 ( Resillient Distributed Dataset, 
RDD ) 来 组 织 数 据 。RDD 可 以 重用 ， 支持 重复 的 访问 ， 在 机 融 学 习 的 各 个 迭代 中 它 都 会 驻 留 内 
存 ， 这 样 能 显著 地 提升 性 能 。 即 使 是 必须 使 用 磁盘 进行 复杂 计算 的 场景 ，Spark 也 常常 比 Hadoop 
MapReduce E X 

Spark 频 频 在 效率 上 表现 出 色 ， 其 官方 博客 显示 ，Spark 在 最 近 的 排序 大 赛 (https://databricks. 
com/blog/ 2014/11/05/spark-officially-sets-a-new-record-in-large-scale-sorting.html ) 中 创造 了 新 纪录 ， 
参见 表 1-1。 


表 1-1 Spark 的 新 纪录 


Hadoop MR Spark Spark 
数据 规模 102.5 TB 100 TB 1000 TB 
耗 时 72 min 23 min 234 min 
节点 数 2100 206 190 
核 数 50400 (物理 的 ) 6592 (虚拟 的 ) 6080 (虚拟 的 ) 
磁盘 吞吐 量 3150 GB/s (估计 ) 618 GB/s 570 GB/s 
环境 专用 数据 中 心 ，10 Gbit/s 虚拟 (EC2) 10 Gbit/s 网 络 ”虚拟 (EC2) 10 Gbit/s 网 络 
排序 效率 1.42 TB/min 4.27 TB/min 4.27 TB/min 
节点 排序 效率 0.67 GB/min 20.7 GB/min 22.5 GB/min 


最 新 的 结果 可 以 关注 ( http://sortbenchmark.org/ )， 最 近 提 交 的 截止 时 间 是 2015-9-1。 

Spark 一 直 寻 求 保持 Spark 引 擎 小 而 紧凑 。Spark 0.3 版 本 只 有 3900 行 代码 ， 其 中 1300 行 为 Scala 
解释 器 ，600 行 为 示例 代码 ，300 行 为 测试 代码 。 即 使 在 今天 ，Spark 核 心 代码 也 只 有 约 $0 000 行 ， 
因此 更 容易 为 许多 开发 人 员 所 理解 和 供 我 们 改变 和 提高 。 

Spark 是 一 个 通用 计算 框架 ， 包 含 了 特定 场景 下 的 计算 库 : Streaming, SOL, MLlib, Graphx 
等 。 除 了 支持 常见 的 MapReduce 范 式 ， 它 还 能 够 支持 图 计算 、 流 式 计算 等 复杂 计算 场景 ， 在 很 大 
程度 上 弥补 了 Hadoop 的 不 足 。 

此 外 ，Spatk 的 接口 丰富 ,提供 了 Python、Java、Scala 等 接口 ， 文 档 清晰 ， 为 初学 者 提供 了 便 
利 的 上 手 条 件 。 
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在 容错 方面 ，Spark 也 有 自己 的 特色 。 容 错 机 制 又 称 “ 血 统 ”( Lineage ) 容错 ， 即 记录 创建 
RDD 的 一 系列 变换 序列 ， 每 个 RDD 都 包含 了 它 是 如 何 由 其 他 RDD 变 换 过 来 的 ， 而 且 包 括 如 何 重 
建 某 一 块 数据 的 信息 。 由 于 Spark 只 允许 进行 粗 粒 度 的 RDD 转 换 , 所 以 其 容错 机 制 相 对 高 效 。Spark 
也 支持 检查 点 ( checkpoint ) 的 容错 机 制 。 容 错 的 机 制 和 原理 将 在 后 面 详 细 阐 述 。 

Spatk 自 带 调度 器 ， 同 时 能 够 运行 在 Hadoop YARN 集 群 、Apache Mesos 上 ， 可 以 很 方便 地 和 
现 有 的 集群 进行 融合 。 

Spark 的 输入 支持 本 地 存储 、Hadoop 的 HDFS， 以 及 其 他 支持 Hadoop 接 口 的 系统 : S3. Hive, 
HBase 等 。Spark 还 有 一 个 优点 ,就 是 当 RDD 的 大 小 超出 集群 的 所 有 内 存 时 ,可 以 优雅 地 进行 降级 
支持 ， 存 储 在 磁盘 。 

从 成 本 的 角度 出 发 ， 由 于 Spark 能 适应 多 种 应 用 场景 ， 这 样 一 个 公司 或 者 组 织 可 能 就 不 需要 
部 署 多 套 大 数据 处 理 系统 ， 可 大 大 减低 学 习 、 维 护 、 部 署 、 支 持 等 成 本 。 


1.23 Spark 的 未 来 发 展 


Spark 在 过 去 的 5 年 里 发 展 迅速 ,社区 活跃 程度 一 点 儿 不 亚 于 Hadoop 社 区 。 我 们 从 Matei Zaharia 
在 Spark 五 周年 的 总 结 中 可 以 看 到 ，Spark 的 contributor 呈 指数 级 增长 ， 参 见 图 1-1。 


过 去 5 年 Spark 贡 献 者 迅速 增长 


m 2011 2012 | | M 2014 

图 1-1 Spark 的 贡献 者 在 过 去 5 年 内 的 增长 情况 

Spark: ( http://spark-summit.org ) 是 Spark 社 区 分 享 Spark 各 种 应 用 的 重要 交流 会 。 在 Spark 
Summit 2015 上， 来 自 Databricks、UC Berkeley AMPLab 、 百 度 、 阿 里 巴巴 、 雅 虎 、 英 特 尔 、 亚 马 
i. Red Hat、 微 软 等 的 数 十 个 机 构 共 分 享 了 近 100 个 精彩 纷呈 的 报告 。 

目前 ，Databricks 、 英 特 尔 、 雅 虎 、 加 州 大 学 伯克利 分 校 是 Spark 主 要 的 贡献 者 。 

Spark 1.4 中 还 发 布 了 SparkR， 引 入 了 更 友好 的 R 语 法 支持 ， 进 一 步 扩展 了 Spark 数 据 分 析 的 应 
用 场景 。 

工业 界 应 用 上 ， 从 Spark 官 方 提供 的 用 户 列 表 可 以 看 到 ， 国 内 的 BAT 都 在 用 Spark， 完 整 的 列 
表 可 以 参考 https://cwiki.apache.org/confluence/display/SPARK/Powered+By+Spark。 Spark Summit 
2015 中 , Databricks 的 CTO Matei Zaharia 在 Keynotes 里 指出 Spark 有 最 大 的 集群 来 自 腾 讯 , 一 共有 8000 
个 节点 ， 单 个 Job 最 大 分 别 是 阿里 巴巴 和 Databricks 的 1 PB。 
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如 今 , Cloudera 、Hortonworks 和 MapR 在 内 的 大 数据 发 行 版 也 添加 了 Spark，Spark 已 经 得 到 广 M 

泛 认 可 ， 成 为 一 种 优秀 的 大 数据 处 理 技术 平台 。 
传统 道家 思想 把 事物 分 为 道 、 法 、 术 、 器 4 个 层次 。 如 果 说 Spark 是 大 数据 的 一 件 利器 ,那么 本 

书 最 多 就 算是 指导 使 用 Spark 的 “ 术 ”， 然 后 解决 大 数据 的 问题 ,需要 的 更 多 是 “ 道 ”“ 法 ”的 探索 。 


Spark 基 础 


本 章 带领 大 家 体验 一 下 Spark。 首 先 ， 在 虚拟 机 环境 下 体验 所 有 基本 操作 ， 然 后 部 署 一 个 可 
供 实际 使 用 的 高 可 用 集群 ， 之 后 会 探讨 如 何 编写 Spark 程 序 并 提交 至 集群 上 运行 。 


2.1 Spark 本 地 单机 模式 体验 


Spark 提 供 了 本 地 单机 部 署 的 体验 模式 ， 与 真实 集群 相 比 ， 它 们 的 最 大 差异 只 是 计算 资源 较 
少 ,但 用 来 学 习 或 体验 足够 了 。 这 里 的 演示 都 在 Linux 系 统 下 ， 这 也 是 考虑 到 Spark 真 实 的 部 署 环 
境 绝 大 部 分 都 在 Linux 下， 而 且 Linux 下 强大 的 shell 功 能 让 我 们 操作 起 来 更 方便 。 


2.1.1 安装 虚拟 机 


已 经 有 Linux 环 境 的 读者 ， 可 以 跳 过 本 节 ， 没 有 的 话 ， 可 以 参考 本 节 在 Windows 桌 面 环 境 下 
安装 一 个 Linux 虚 拟 机 。 
虽然 各 大 云 平 台 都 有 免费 的 云 服 务 器 可 以 试用 ， 但 还 是 有 诸多 不 便 。 比 如 ， 国 内 的 腾讯 云 、 
阿里 云 、UCloud, 试用 期 一 般 不 到 一 个 月 。 虽然 国外 的 亚马逊 提供 一 年 的 试用 期 , 但 需要 填写 信 
用 卡 支付 信息 , 一 不 小 心 就 可 能 因为 流量 或 其 他 资源 使 用 超标 导致 自动 扣 费 , 而 且 网 络 稳定 性 也 
是 个 问题 。 所 以 相 比 之 下 ， 本 地 虚拟 机 最 方便 ， 没 有 网 络 时 也 可 以 使 用 。 

1. Linux 发 行 版 Ubuntu 

安装 虚拟 机 之 前 ， 首 先 选择 一 个 Linux 发 行 版 。 其 实 任何 Linux 发 行 版 都 可 以 ， 这 里 我 们 推荐 
使 用 比较 流行 的 Ubuntu， 其 下 载 地 址 为 http:/www.ubuntu.com/download/。 我 们 可 以 根据 个 人 习惯 
选择 纯 shell 操 作 的 Ubuntu Server 版 本 ， 或 者 带 图 形 界面 的 桌面 版 。 


2. 虚拟 机 工具 VirtualBox 


常见 的 虚拟 机 有 VMWare Workstation, VMWare PlayerfllVirtualBox, VMWare Workstation 功 
能 最 强大 但 收费 ， 我 们 可 以 选择 免费 的 VMWare Player 或 者 VirtualBox ， 这 里 以 VirtualBox 为 例 来 
演示 安装 。VMWare Player 的 操作 也 基本 类 似 。 
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VirtualBox 的 下 载 地 址 为 https://www.virtualbox.org/wiki/Downloads ,截至 2015 年 10 月 底 时 的 最 
Dude 0.8， 我 们 下 载 最 新 的 VirtualBox 5.0.8 for Windows hosts， 它 已 经 支持 到 Windows 10 T o 


安装 过 程 基本 上 是 一 直 点 击 “下 一 步 ”， 


安装 成 功 后 的 界面 如 图 2-1 所 示 。 


[s Oracle VM VirtualBox ur NN RR NN RR 


一 一 an o — 


[SIE 


y| 


管理 (日 ”控制 (M) ”帮助 (H) 


5e. lb. å -D 
ue E 3 


FENM RESO 清除 BM, 


"rs 


[CO BR) ) 回 备 份 [系统 快照] &) 


欢迎 使 用 虚拟 电脑 控制 全 ! 


窗口 的 左边 用 来 显示 已 生成 的 虚拟 电脑 ， 现 在 是 空 的 ， 因 为 你 还 没有 新 建 任何 虚拟 电脑 . 


ge POHED 请 按 位 于 窗口 顶部 工具 栏 上 的 新 建 按 


你 可 以 按 Fi 键 来 查看 帮助 ， 或 访问 www. virtualbox. org 查看 
最 新 信息 和 新 闻 . 


e 创建 虚拟 机 


点 击 主 界面 左上 角 的 “新 建 ” 按 钮 ， 在 打开 的 界面 中 选择 Linux 类 型 、 


图 2-1 


成 功 安装 VirtualBox 后 的 界面 


并 取 个 名 字 ， 比 如 Spark Ubuntu， 如 图 2-2 所 示 。 


[ — 和 x) 
. „= 
O resnem 
-S 
| 。 应 拟 电脑 名 称 和 系统 类 型 
DAR TENE DEDE EH HAPBIEKGUA DI MENAT 
识 


EPRA): Spark Ubuntu 


AAT): (Linux 3 BA 
到 


版 本 0D): [Ubuntu 64-bit) 


ERRARE) | 下 一 步 0D 取消 


一 一 = | 


图 2-2 新建 虚 拟 电 脑 


Ubuntu (64-bit) 版 本 ， 
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然后 一 路 点 击 “ 下 一 步 ”按钮 ， 大 部 分 使 用 默认 配置 就 好 ， 而 磁盘 空间 这 里 可 以 稍微 设置 大 
一 点 ， 因 为 实际 占用 的 本 地 磁盘 是 动态 分 配 的 ， 所 以 不 会 占用 更 多 的 磁盘 空间 ， 如 图 2-3 所 示 。 


f ] 2 [9 miim] 
Q sme " 
文件 位 置 和 大 小 
请 在 下 面 的 框 中 键入 新 建 虚拟 硬盘 文件 的 名 称 ， 或 单 击 文件 来 图 标 来 选择 创 
建文 件 要 保存 到 的 文件 来。 
| Spark Ubuntu 


选择 虚拟 硬盘 的 大 小 。 此 大 小 为 虚拟 硬盘 文件 在 实际 硬盘 中 能 用 的 极限 大 


ATA 


Q — 8.00 GB 
4.00 MB 2.00 TB 
| 


图 2-3 文件 位 置 和 大 小 
创建 好 后 ， 就 可 以 看 到 Spark Ubuntu 虚拟 机 了 ， 如 图 2-4 所 示 。 


» 


a 
Ü Oracle VM VirtualBox SEa o e Erm) 


管理 (日 ”控制 (M) ”帮助 (H) 


i 
V 


^ - [Ga Big) | 回 备 份 [系统 快照 ] CO 
JEM REO F Bm) 
Spark Ubuntu B 常规 [E] pes "5 
(à) 
Wa TY 名 称 : Spark Ubuntu 
操作 系统 : Ubuntu (54-bit) 
国 系统 V 
内 存 大 小 : 1024 MB Spark Ubuntu 


启动 顺序 软驱， 光驱， 硬盘 
硬件 加 速 : VT-X/AMD-V, REDL 
Km 半 虚 拟 化 


m 


[E 显示 


显存 大 小 : 12 MB 
远程 桌面 服务 器 : 已 禁用 
录像 : 已 禁用 


存储 MN 
控制 器 : IDE 
第 二 IDE 控 制 器 主 通道 : [光驱 ] 没有 盘 片 
控制 器 : SATA 
SATA 端口 0: Spark Ubuntu vdi (普通 ，8.00 GB) 
全 声音 
主机 音频 驱动 : Windows DirectSound 
控制 艺 片 : ICH ACST 


a mw 


È = = = == d 


图 2-4 ”创建 好 的 Spark Ubuntu 虚拟 机 
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默认 情况 下 ， 虚 拟 机 可 以 访问 外 网 , 但 宿主 机 ( 即 当 前 的 个 人 电脑 ) 却 无 法 访问 虚拟 机 。 为 
了 后 面 操作 方便 ,我 们 配置 一 下 ， 让 宿主 机 也 能 访问 虚拟 机 。 


选中 Spark Ubuntu 虚拟 机 ， 点 击 “ 设 置 ”一 “网 络 ”， 启 用 “网 卡 2”， 连 接 方式 选择 “ 仅 主 机 


(Host-Only ) 适配器 ”， 点 击 “ 确 定 ” 按 钮 保存 即 可 ， 如 图 2-5 所 示 。 这 样 未 来 的 虚拟 机 会 有 两 块 
WE, 一块 用 于 通过 宿主 机 连接 外 网 ， 男 一 块 用 于 与 宿主 机 通信 。 
[a Spark Ubuntu - 设置 < x) am 
l m xm 网 络 | 
[i] s Bei] 同 F2 Lis RH A] 
[ml ux V 启用 网 络 连 接 O 
ea 这 方式 
界面 名 称 四 : [VirtualBox Host-Dnly Ethernet Adapter x) 
P5 DERO 
E mue 
® 5n 
@ usas 
B tsr 
ES] mesm 
Cer (i me )( mmo ] 


图 2-5 ”设置 宿主 机 可 以 访问 虚拟 机 

需要 说 明 的 是 ， 这 一 步 也 可 以 在 安装 完 操作 系统 之 后 进行 。 

e 给 虚拟 机 安装 操作 系统 Ubuntu 

这 时 的 虚拟 机 只 是 一 台 空 机 器 ， 上 面 没有 操作 系统 ， 我 们 需要 为 它 安 装 操作 系统 Ubuntu 
Server LTS, 


点 击 “ 启 动 ” 按 钮 ， 启 动 之 前 会 提示 我 们 选择 一 个 启动 盘 ， 这 里 选择 使 用 前 面 下 载 的 镜像 文 
件 ubuntu-14.04.3-serveramd64.iso， 如 图 2-6 所 示 。 


请 选择 一 个 虚拟 光盘 文件 或 已 放 入 光盘 的 光驱 来 启 
动 虚 拟 电脑 。 


此 光盘 应 可 启动 并 且 有 你 想 安装 的 操作 系统 。 下 次 
关闭 虚拟 电脑 时 ， 此 光盘 可 自动 弹出 ;你 也 可 以 手 


EE 


[ubuntu-14. 04.3-server-amdB4. iso (574. x) PA] 


ih 


K2-6 ”选择 启动 盘 
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然后 启动 虚拟 机 ， 可 以 看 到 虚拟 机 已 经 运行 起 来 了 ， 如 图 2-7 所 示 ， 而 且 会 看 到 Ubuntu 的 安 
装 界面 ， 如 图 2-8 所 示 。 


E o -—— 
34 Oracle VM VirtualBox 管理 器 c» | E) fmm] 
EAH fM) ”帮助 (H) 


- 党 E (89 &(3 RUBRI O 


HEM HAO S SRW 


E 常规 加 预览 


名 称 : Spark Ubuntu 
操作 系统 : Ubuntu (B4-bit) 


Gd 系统 
内 存 大 小 : 1024 MB 


启动 顺序。 TOL JOE, WE 
硬件 加 速 :  VT-x/AMD-V, REDT 


m 


xvn 半 虚 拟 化 
(E) 显示 
显存 大 小 : 12 MB — 
远程 点 面 服务 器 : 已 禁用 
录像: 已 禁用 
D tik 
控制 器 : IDE 


第 二 IIFE 控 制 器 主 通道 : [光驱 ] ubuntu-14. 04. 3-server-amdB4. iso (574.00 MB) 


控制 器 : SATA 
SATA 端口 0 Spark Ubuntu vdi (普通 ，8.00 GB) 


P 声音 


TEADERSEüNIh: Windawe TiventSonnd 


图 2-7 启动 虚拟 机 


| 
[A Spark Ubuntu [正在 运行 ] - Oracle VM VirtualBox cg; 9 


HmmarIC rrancais MaKeEAOACKW Tamil 
Arabic Gaeilge Malayalam SELE] 
Asturianu Galego Marathi Thai 
6enapyckag | Gujarati Burmese Tagalog 
Bbnrapcku nu Nepali Türkce 
Bengali Hindi Nederlands Uyghur 
Tibetan Hrvatski Norsk bokmål YkpalHcbka 
Bosanski Magyar Norsk nynorsk Tiéng viêt 
Català BahasaIndonesia | Punjabi (Gurmukhi) 中 文 (简体 ) 
Čeština Íslenska Polski 中 文 (繁体 ) 
Dansk Italiano Portugues do Brasil 
Deutsch 日 本 语 Português 
Dzongkha jobogmo Romána 
EAAnVUü Kasak Pycckuň 

Khmer Sámegillii 
Esperanto 8330 25 o2, 
Español #30] Slovenčina 
Eesti Kurdi Slovenščina 
Euskara Lao Shqip 
3 ww Lietuviškai Cpncku 
Suomi Latviski Svenska 


EP gme 9 (v) Ries ctrl 


图 2-8 ”Ubuntu 的 安装 界面 


I 
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这 是 虚拟 机 的 界面 窗口 ， 点 击 鼠 标 后 , 个 人 电脑 的 鼠标 、 键 盘 将 完全 被 虚拟 机 占有 ， 如 果 不 
熟悉 Linux， 会 感觉 鼠标 、 键 盘 完 全 失灵 ， 难 免 不 安 ， 不 过 没关系 ， 退 出 的 方式 在 窗口 右 下 角 有 
提示 : 按 “ 右 Ctrl” 键 即 可 退出 。 

在 安装 过 程 中 , 绝 大 部 分 配置 使 用 默认 值 就 好 。 当 然 , 我们 也 可 以 选择 自己 偏好 的 语言 。 格 
式 化 磁盘 时 , 需要 手动 选择 Yes。 唯一 需要 我 们 输入 的 地 方 是 创建 一 个 root 之 外 的 账号 , 并 设置 密 
人 码 ， 如 图 2-9 和 图 2-10 所 示 。 


$A Spark Ubuntu [正在 运行 ] - Oracle VM VirtualBox 己 | 回 | X 


[! Set up users and passuords 
Select a username for the neu account. Your first name is a reasonable choice. The 
username should start with a lower-case letter, which can be followed by any combination 
of numbers and more lower-case letters. 
Username for your account: 


«Go Back» «Continue» 


cts; «Enter» activates buttons 


BP uEE (s ue cer 


图 2-9 ”添加 账号 〈 另 见 彩 插图 2-9 ) 


六 Spark Ubuntu [正在 运行 ] - Oracle VM VirtualBox Bg % 


[! Set up users and passwords 


A good password will contain a mixture of letters, numbers and punctuation and should be 
changed at regular intervals. 


Choose a password for the neu user: 


«Go Back» «Continue» 


图 2-10 ”设置 密码 ( 另 见 彩 插图 2-10 ) 
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在 选择 安装 哪些 服务 时 ， 我 们 选 上 OpenSSH server， 此 时 会 自动 启动 SSH 服 务 ， 方 便 从 本 机 
访问 虚拟 机 ， 如 图 2-11 所 示 。 当 然 ， 也 可 以 事后 安装 服务 。 


[SA Spark Ubuntu [正在 运行 ] - Oracle VM VirtualBox cg) X 


lin] 


1 [!] Software selection f 


At the moment, only the core of the system is installed. To tune the system to your 
needs, you can choose to install one or more of the following predefined collections of 
software. 


Choose software to install: 


<Cont inue> 


ce> selects; <Enter> activat 


Pe oee gue ca 


图 2-11 选择 OpenSSH server ( 另 见 彩 插图 2-11 ) 
装 过 程 大 概 持续 半 小 时 ， 这 视 机 器 配置 而 略 有 不 同 。 
完成 后 会 自动 重启 , 输入 刚才 创建 的 账号 和 密码 之 后 , 就 可 以 登录 进去 了 , 如 图 2-12 所 示 。 


{F Spark Ubuntu [正在 运行 ] - Oracle VM VirtualBox cg) X 


Ubuntu 14.04.3 LTS ubuntu ttul 

ubuntu login: marc 

Password: 

Welcome to Ubuntu 14.04.3 LTS (GNU/Linux 3.19.0-25-generic x86_64) 
x Documentation: https://help.ubuntu.com/ 


System information as of Wed hpr 6 13:12:32 CST 2016 


System load: 0.72 Memory usage: 54 Processes: 87 
Usage of /: 13.0x of 6.50GB Swap usage: 0^ Users logged in: 0 


Graph this data and manage this system at: 
https://landscape.canonical.com/ 


|0 packages can be updated. 


0 updates are security updates. 


The programs included with the Ubuntu system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by 
applicable lau. 


marc@ubuntu:™$ 


FODE OH Acr 


图 2-12 ”登录 成 功 界面 
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在 Ubuntu 系统 下 ， 我 们 可 以 通过 apt-get 命 令 安装 各 种 程序 ， 比 如 安装 上 传 和 下 载 文件 的 
TH: 


ve 


sudo apt-get install rpm alien lrzsz 


3. 网 络 配置 
通过 ;ifconfig 命令 可 以 看 到 自己 的 地 址 ，eth1 的 耻 即 我 们 可 以 从 宿主 机 访问 的 也， 如 图 2-13 CENE 
所 示 。 


[SA Spark Ubuntu [正在 运行 ] - Oracle VM VirtualBox 局 | 回 | x 


arceubuntu : ^ 
arcGubuntu:^$ ifconfig 
etho Link encap:Ethernet HWaddr 08:00:27:16:90:b4 
inet addr:10.0.2.15 Bcast:10.0.2.255 HMask:255.255.255.0 
inet6 addr: fe80::a00:27ff :fe16:90b4/64 Scope:Link 
UP BROADCAST RUNNING MULTICAST  MTU:1500 Metric:1 
RX packets:13 errors:0 dropped:0 overruns:O0 frame:0 
TX packets:42 errors:0 dropped:0 overruns:0 carrier:O 
collisions:0 txqueue len :1000 
RX bytes:3692 (3.6 KB) TX bytes:4746 (4.7 KB) 


Link encap:Ethernet HWaddr 08:00:27:b2:3f:52 

inet addr:192.168.56.101 Bcast:192.168.56.255 Mask:255.255.255.0 
inet6 addr: fe80::a00:27ff :feb2:3f52764 Scope:Link 

UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

RX packets:3 errors:0 dropped:0 ouerrums:0 frame:0 

TX packets:11 errors:0 dropped:0 overruns:O carrier:0 
collisions:0 txqueue len :1000 

RX bytes:1770 (1.7 KB) TX bytes:1674 (1.6 KB) 


Link encap:Local Loopback 

inet addr:127.0.0.1 Mask:255.0.0.0 

inet6 addr: ::1/128 Scope :Host 

UP LOOPBACK RUNNING MTU:65536 Metric:1 

RX packets:0 errors:0 dropped:0 ouerrums:0 frame:0 
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 
collisions:O txqueuelen:O 

RX butes:0 (0.0 B) TX butes:0 (0.0 B) 


arcGubuntu:^$ 


gc m) d O (QS) Rig coi 


图 2-13  eth1 的 IP 
如 果 是 安装 完 操 作 系 统 后 才 添 加 的 网 卡 2， 默 认 不 会 启动 , 可 以 执行 下 面 的 命令 来 启动 网 卡 ， 
并 有 自动 获取 IP: 


sudo ifconfig eth1 up 
sudo dhclient 


AE 


如 果 在 安装 Ubuntu 时 没有 选择 OpenSSH Server， 可 以 手动 安装 : 


sudo apt-get install openssh-server 


这 里 的 IP 是 通过 DHCP 服 务 自动 分 配 的 。 为 了 避免 虚拟 机 下 次 重启 之 后 变更 IP， 我 们 可 以 配 
置 虚拟 机 使 用 固定 IP。 编 辑 网 络 配 置 文件 : 


sudo vi /etc/network/interfaces 


AE 
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添加 如 下 内 容 : 


auto eth1 

iface eth1 inet 
address 192.168. 
netmask 255.255. 
gateway 192.168. 


其 中 网 关 地 址 192.168.56.100 来 自 VirtualBox 全 局 设 定 中 的 网 络 配置 ， 如 图 2-14 所 示 。 


static 
56.101 
255.0 

56.100 


(9 Oracle VM VirtualBox &$3E8& =a 
EEO SSM E 
E xm 
Q sa| [arp | REN Uosto 00 
&) as) M 
@ 语言 d 仅 主机 (Host-Only) 网 络 明细 
[m] z7 主机 虚拟 网 络 界面 和) DHC RAED 
a 网 络 加 启用 服务 器 (D 
服务 器 地 址 他) : 192. 168. 56. 100 
国 ra 服务 器 网 络 搞 码 QD: 255.255.255.0 —— 
mE 代理 最 小 地 址 LL): 192. 168. 56. 101 
最 大 地 址 QD: 192. 168. 56. 254 


空 制 器 : IDE 
第 二 IDE 控 制 器 主 通道 : [光驱 ] 没有 盘 片 
控制 器 : SATA 

SATA 端口 0: 
P 声音 


LSR Windowse TiventSonnq 


Spark Ubuntu vdi (2j, 8.00 GB) 


图 2-14 ”VirtualBox 全 局 设 定 中 的 网 络 配 置 


重启 网 络 服务 后 生效 : 


sudo /etc/init.d/networking restart 

4. SSH 客 户 端 

直接 在 虚拟 机 平台 的 shell 下 操作 不 太 方便 ， 而 且 也 不 方便 与 宿主 机 的 文件 传输 ， 所 以 要 借助 

远程 SSH 连 接 工 具 。 最 好 用 的 是 SecureCRT， 其 功能 强大 ， 不 过 是 商业 版 ， 但 提供 了 30 天 免费 试 

用 版 ， 足 够 我 们 体验 Spark 了 。 
当然 ， 也 有 开源 免费 的 可 供 选 择 ， 此 时 可 以 用 Bitvise SSH Client， 其 官方 网 址 为 https:/www. 

bitvise.com/， 下 载 后 安装 并 启动， 按照 图 2-1$ 输 入 卫 和 端口 。 
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L $3 Bitvise SSH Client 6.41 一 口 x 
Default profile 人 
Login Options Terminal Remote Desktop SFTP Services C25 S2C SSH About 
88 Server Authentication 


Load profile Host [192.168.56.101 Username 


$2 Port |22 [C] Enable obfuscation Initial method 


Obfuscation keyword 


Save profile as 


Kerberos 
SPN 
[C ]SsPI/Kerberos 5 key exchange 


Request delegation 
SSPI/Kerberos 5 authentication 


Proxy settings Host key manager Client key manager Help 


.à/10:54:12.823 Current date: 2015-10-11 
4) 10:54: 12.823 Bitvise SSH Client 6.41, a fully featured SSH2 dient. 

Copyright (C) 2000-2015 by Bitvise Limited. 
.à/10:54:12.823 Visit www.bitvise.com for latest information about our SSH2 products. 
4) 10:54: 12.823 Run 'BvSsh -help' to learn the supported commandine parameters. 
.4/10:54:13.319 Loading default profile. 


.4/10:54:13.320 Loading default profile failed: RegOpenKeyExW0 failed: Windows error 2: 系统 找 不 
到 指定 的 文件 。 
.à/10:54:13.320 Loading a blank profile. 


图 2-15 Bitvise SSH Client 


录 后 ， 会 提示 接受 并 保存 主机 密 钥 ( host key )， 如 图 2-16 所 示 。 


Host Key Verification x 


New host key 


Either the connection to this host is being established for the first time 
or the host key has been removed from, or never saved to the database. 


Please contact the server's administrator and verify the received key. 
Accepting the host key without verification is not recom 


Connecting to 192.168.56.101:22 
Host key algorithm: ECDSA/nistp256, size: 256 bits. 


MD5 Fingerprint: 
78:ec:74:b3:7c:8d:8f:9a:3d:f7:a7:8a:5e:58:3b:9a 


Bubble-Babble: 
xucoh-unor-vosuc-cosyt-rihen-tysar -ferip-babok-calog-kegiv-raxex 


SHA-256 Fingerprint: 
giiz7QiEdzv3XS2NJap28sFC 4JQ6lCkKuHUq7x3cus 


[ Acceptandgave .] | Accept for This Session | | — Camel — |, 


图 2-16 ”提示 接受 并 保存 主机 密 钥 
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按照 提示 输入 密码 ， 如 图 2-17 所 示 。 


User Authentication x 


` Connecting to: 192.168.56.101:22, 
SPN: host/192.168.56.101 


* Username marc | 


i Method password v| 


1 [Password ELLI 


: Change password 


t 


图 2-17 输入 密码 


点 击 OK 按 钮 即 可 登录 到 虚拟 机 ， 如 图 2-18 所 示 。 


图 Bitvise xterm - marc@192.168.56.101:22 - marc@ubuntu: ~ 一 口 x 


marc@ubuntu:~$ 


图 2-18 ”登录 到 虚拟 机 上 
至 此 ， 虚 拟 机 配置 完毕 ! 
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2.1.2 安装 JDK 


Spark 的 运行 依赖 JVM。Spark 使 用 Scala 语 言 开 发 ， 而 Scala 是 一 种 像 Java 一 样 运行 在 JVM 上 的 
语言 , 完美 地 融合 了 面向 对 象 编 程 与 函数 式 编程 。 关 于 Scala 语 言 的 相关 内 容 , 可 以 参考 本 书后 面 
的 附录 。 

Spark 1.4.1 要 求 的 最 低 JDK 版 本 是 JDK 6，Hadoop 从 2015 年 4 月 发 布 的 2.7.0 开 始 ， 已 经 抛弃 了 
JDK 6， 只 支持 JDK 7+， 所 以 我 们 建议 选择 JDK 7， 尽 可 能 同时 支持 Hadoop 和 Spark。 取 JDK 7 最 
新 的 稳定 版 即 可 ， 优 先 64 位 版 本 。 

JDK 的 官方 下 载 地 址 为 http://www.oracle.com/technetwork/java/javase/downloads/index.html, 默 


认 会 提供 最 新 版 本 的 JDK 下 载 ， 目 前 是 JDK 8。 早 期 版 本 的 链接 在 底部 ， 搜 索 关 键 词 older 可 以 定 
位 到 ， 如 图 2-19 所 示 。 


Java Archive 


The Java Archive offers access to some of our historical Java releases. 
WARNING: These DM versions ofthe JRE and JDK are provided to help 

developers debug issues in older systems. They are not updated with the 

latest security patches and are not recommended for use in production. 


图 2-19 早期 版 本 
进入 链接 ， 发 现 有 许多 版 本 可 供 下 载 ， 这 里 我 们 选择 Java SE 7， 如 图 2-20 所 示 。 


Java SE 


Java SE8 


| 和 


Java SE 7 


Ie 


Java SE 6 


Ie 


Java SE 5 


Ie 


Java SE 1.4 


Ie 


Ie 


Java SE 1.3 


Ie 


Java SE 1.2 


Java SE 1.1 


Ie 


图 2-20 ”选择 Java SE 7 


进入 该 链接 ， 会 看 到 JDK 7 的 最 新 版 本 下 载 地 址 ， 其 按 平台 又 分 很 多 种 ， 这 里 选择 Linux 64 
位 的 版 本 ， 如 图 2-21 所 示 。 
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Java SE Development Kit 7u80 


You must accept the Oracle Binary Code License Agreement for Java SE to download this| 
software. 


AcceptLicense Agreement ® Decline License Agreement 


Likes dl VERRE RE 


Linux x86 13044MB  $* 

Linux x86 14768MB  $ 

Linux x64 * 

Linux x64 * - 

Mac OS X xo4 0.34 * jdk-7u80-macosx-x64.dmg 
Solaris x86 (SVR4 package) 140.77 MB — € jdi-7u80-solaris-i586.tar.Z 
Solaris x86 96.41 MB Š jdk-7u80-solaris-i586 tar.gz 
Solaris x64 (SVR4 package) 24 2MB Š jdi-7u80-solaris-x64 tar.Z 
Solaris x64 16.38 MB  * jdk-7u80-solaris-x64 tar.gz 
Solaris SPARC (SVR4 package) 140.03 MB — & jdk-7u80-solaris-sparc.tar.Z 
Solaris SPARC 99.47 MB  * jdk-7u80-solaris-sparc tar.gz 
Solaris SPARC 64-bit (SVR4 package) 2405MB Š jdk-7u80-solaris-sparcv8.tar.Z 
Solaris SPARC 64-bit 18.441 MB s jdi-7u80-solaris-sparcv9 tar.gz 
Windows x86 138.35 MB  * jdi-7u80-windows-i586.exe 
Windows x64 140.00 MB  & idk-7u80-windows-x64.exe 
Back to top 


图 2-21 ”选择 版 本 


有 RPM 包 或 tar.gz 包 对 应 不 同 的 安装 方法 , RPM 包 安装 之 后 , 会 替代 之 前 安装 的 pm 包 , 作为 
系统 上 默认 的 JDK, tar.gz 包 的 灵活 性 则 大 很 多 , 但 稍 复杂 一 些 , 这 里 只 是 体验 , 我 们 选择 RPM 包 来 
安装 。 

安装 RPM 包 的 具体 方法 如 下 。 


(1) 下 载 jdk-7u80-linux-x64.rpm 到 本 地 。 

(2) 上 传 至 虚拟 机 ( 使 用 SecureCRT 时 ， 可 以 用 rz -bye 命 令 ， 而 Bitvise SSH Client 提 供 
形 化 的 方式 )。 

(3) 在 虚拟 机 上 执行 sudo alien -i -c -v jdk-7u80-linux-x64.rpmfp4, H'Phalien 
相当 于 Ubuntu 下 的 rpm， 如 果 是 其 他 Linux， 安 装 命令 可 能 是 rpm -ivh jdk-7u80- 
linux-x64 .rpm。 上 默认 情况 下 ，JDK 会 安装 到 目录 /usr/java/jdk1.7.0_65 下 。 

(4) 设置 环境 变量 JAVA_HOME。 为 了 使 下 次 登录 还 能 生效 ， 可 以 将 命令 追加 至 ~/.profile 未 尾 : 
export JAVA HOME-/usr/java/jdk1.7.0. 65。 

tar.gz 包 的 安装 方法 为 ， 直接 将 文件 复制 至 指定 目标 目录 ( 比如 /usvjava ) 下 ， 解 压缩 即 可 ， 

然后 像 上 面 的 过 程 一 样 设置 环境 变量 JAVA_HOME。 

这 两 种 安装 方式 的 差异 仅仅 是 目录 的 不 同 ， 安 装 后 都 需要 配置 环境 变量 JAVA_HOME。 

执行 SJAVA_HOME/bin/java-version， 若 能 看 到 如 下 信息 ， 则 说 明 安 装 成 功 : 

java version "1.7.0 65" 


Java(TM) SE Runtime Environment (build 1.7.0 65-b17) 
Java HotSpot (TM) 64-Bit Server VM (build 24.65-504, mixed mode) 


F 


了 图 
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2.1.8 "FA Spark 预 编译 包 
完成 前 面 的 准备 工作 后 ， 我 们 开始 下 载 Spark 已 经 预 编译 的 安装 包 ， 并 运行 示例 。 
1. 下 载 解 压 


Spatk 预 编译 包 的 下 载 地 址 为 http://spark.apache.org/downloads.html， 选 择 版 本 ( 这 里 使 用 的 


是 1.4.1 版 本 )、 包 类 型 ( 这 里 选择 的 是 Pre-built for Hadoop 2.6 and later ) 之 后 , 就 可 以 开始 下 载 了 ， | 
如 图 2-22 所 示 。 


Download Spark 


The latest release of Spark is Spark 1.4.1, released on July 15, 2015 (release notes) (git tag) 


一 


. Choose a Spark release: | 1.4.1 (Jul 15 2015) v 


. Choose a package type: | Pre-built for Hadoop 2.6 and later 


. Choose a download type: | Select Apache Mirror "| 


Download Spark: spark-1.4.1-bin-hadoop2.6.tgz 


a B ooN 


Verify this release using the 1.4.1 signatures and checksums. 
图 2-22 ”下 载 Spark 预 编 译 包 
下 载 到 本 地 之 后 ， 为 了 确保 下 载 的 内 容 正 确 ， 最 好 做 一 下 校 验 ， 此 时 用 md5 就 好 : 
md5sum spark-1.4.1-bin-hadoop2.6.tgz 
如 果 结 果 与 下 载 链接 上 提供 的 结果 一 致 ， 说 明 下 载 正 确 。 
解压 缩 包 ， 进 入 Spark 目 录 : 


tar xvf spark-1.4.1-bin-hadoop2.6.tgz 
cd spark-1.4.1-bin-hadoop2.6 


2. 运行 示例 

运行 计算 圆周 率 Pi 的 测试 代码 (日志 忽略 ): 
./bin/run-example SparkPi 10 2>/dev/null 
运行 结果 : 


Pi is roughly 3.141276 


Spark 除 了 支持 Scala 语 言 ， 还 支持 Python 语 言 。 下 面 是 运行 Python 版 本 的 示例 : 
./bin/spark-submit examples/src/main/python/pi.py 10 2>/dev/null 
运行 结果 : 


Pi is roughly 3.138396 
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从 Spark 1.47F 23, SparkJF oc dRi Ei (lk: 之 前 的 SparkR 只 是 R 的 一 个 包 ， 目 前 已 经 停止 
更 新 )。 


测试 命令 : 


./bin/spark-submit examples/src/main/r/dataframe.R 2»/dev/null 


运行 结果 : 


Loading required package: methods 

Attaching package: 'SparkR' 

The following object is masked from 'package:stats': 
filter 

The following objects are masked from 'package:base': 
intersect, sample, table 

Warning message: 

package 'SparkR' was built under R version 3.1.3 


root 
|-- name: string (nullable - true) 
|-- age: double (nullable - true) 
root 
|-- age: long (nullable - true) 
|-- name: string (nullable - true) 
name 
1 Justin 


至 此 ，Spark Local 模 式 安装 成 功 。 


2.1.4 本 地 体验 Spark 
Spatk 可 以 方便 地 进行 交互 式 编程 ,这 也 是 Scala、Python 和 R 等 语言 的 特性 , 下 面 以 Scala 语 言 
为 例 进行 介绍 。 执 行 下 面 的 命令 ， 进 入 Scala 交 互 式 编程 模式 : 


./bin/spark-shell --master local[2] 


其 中 --mastetr 用 于 指定 Master 服 务 器 的 地 址 ，Llocal 表 示 运 行 在 本 地 ，[2] 为 可 选项 ， 表 示 局 动 
两 个 工作 线程 。 


启动 后 ， 我 们 在 启动 日 志 中 可 以 看 到 这 样 的 基本 信息 : 


Welcome to 


/ A fd 
NM y x [ocu 
/ AN version 1.4.1 
/_/ 
Using Scala version 2.10.4 (Java HotSpot (TM) 64-Bit Server VM, Java 1.7.0_80) 


同时 ，Master 会 启动 一 个 HTTP Web 服 务 ， 方 便 我 们 查看 Spark 的 工作 状态 ， 默 认 绑 定 在 本 机 
所 有 卫 的 4040 端 口上 。 在 浏览 器 中 输入 <LocalIP>:4040， 得 到 的 界面 如 图 2-23 所 示 。 
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—-—- Qe — ， o 可 
e D) @ http//192.168.56.101:4040/0bs/ P ~ © | Spark shell - Spark Jobs X 


Spak 141 Jobs Stages Storage Environment Executors 


Spark Jobs (? 


Total Uptime: 2.0 min 
Scheduling Mode: FIFO 


> Event Timeline 


图 2-23 Spark 启动 的 Web 界 面 


1. Hello, world 


在 交互 式 编程 模式 下 ， 直 接 答 入 Scala 的 Hello world 代 码 ; 


object HelloWorld ( 
def main(args: Array[String]) ( 
println("Hello, world!") 


} 
} 
HelloWorld.main (null) 


执行 结果 如 下 : 


scala» object HelloWorld ( 
| def main(args: Array[String]) ( 
| printlin("Hello, world!") 
| } 
上 
defined module HelloWorld 
scala» HelloWorld.main (null) 
Hello, world! 


在 不 涉及 Spark 包 的 情况 下 ， 这 其 实 就 是 一 个 标准 的 Scala 解 释 器 。 

Spark 的 核心 数据 结构 是 RDD ， 全 称 为 弹性 分 布 式 数据 集 ( Resilient Distributed Dataset )。 最 
重要 的 是 , 它 是 一 个 数据 集 , 所 以 我 们 把 它 想象 成 一 个 数组 就 好 了 , 先 不 用 管 它 的 内 部 存储 结构 。 

下 面 我 们 先 从 本 地 文本 文件 创建 一 个 RDD: 


scala» val textFile = sc.textFile("README.md") 


textFile: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at textFile at 
«console»:21 


RDDR IIAN TENA, EENAA, 


Q 转换 (Transformation )。 生 成 新 的 RDD。 
口 动作 (Action)。 返 回 一 个 非 RDD 类 型 的 值 ， 视 方法 而 不 同 。 
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2. Action 
先 体验 一 下 Action 类 型 的 操作 : 


Scala» textFile.count() 
res0: Long - 


// 返回 RDD 元 素 的 个 数 


执行 完成 后 ， 检 查 一 下 Web 界 面 ， 可 以 看 到 Job 完 成 ， 并 且 被 拆 成 一 个 Stage 和 两 个 Task， 如 


图 2-24 所 示 。 


98 // sc.textFile 创 建 的 文本 类 型 的 RDD， 每 行 一 个 元 素 ，98 表 示 文 本 的 行 数 


Spok 144 


Jobs Stages Storage 


Spark Jobs ? 


Total Uptime: 8.9 min 
Scheduling Mode: FIFO 
Completed Jobs: 1 


Event Timeline 
Completed Jobs (1) 


Job 


Stages: 
ld Description 


Submitted 
0 count at 
<console>:24 


2015/08/23 06s 1A 
22:51:47 


Environment 


Duration Succeeded/Total 


Executors 


Tasks (for all stages): 
Succeeded/Total 


图 2-24 Spark Job 
再 来 执行 一 下 first 操 作 : 


Scala» textFile.first() 


// 取 RDD 的 第 一 个 元 素 
resi: String = 


# Apache Spark // 第 一 行内 容 是 # Apache Spark 


执行 完成 后 ，Web 界 面 就 多 了 一 条 Job 记 录 ， 按 执行 先后 倒序 排列 ， 同 样 只 有 一 个 Stage， 但 


Task 数 量 是 2， 如 图 2-25 所 示 。 


Spa t Jobs Stages Storage Environment 
? 
Spark Jobs (? 
Total Uptime: 11 min 
Scheduling Mode: FIFO 
Completed Jobs: 2 
> Event Timeline 
Completed Jobs (2) 
Job Stages: 
Id Description Submitted Duration Succeeded/Total 
1 first at 2015/08/23 01s 1^4 
«console»-24 22:54:04 
0 count at 2015/08/23 06s 1A 
«console»-24 22:51:47 


Executors 


Tasks (for all stages): 
Succeeded/Total 


图 2-25 Spark Job 
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图 2-26 是 界面 上 的 Stage 信 息 。 


Spa Taa Jobs Stages Storage Environment Executors 
Stages for All Jobs 
Completed Stages: 2 
Completed Stages (2) 
Stage Tasks: Shuffle Shuffle 
ld Description Submitted Duration Succeeded/Total Input Output Read Write 
1 first at <console>:24 +details 2015/08/23 48ms (MEN 55 
22:54:04 KB 


0 count at «console»:24 2015/08/23 (04s D ^5 


*details | 22:51:48 KB 


图 2-26 ”界面 上 的 Stage 信 息 
3. 转换 
再 来 体验 一 下 转换 操作 ， 我 们 要 统计 README.md 中 包含 关键 字 Spark 的 行 数 是 多 少 : 


scala» val linesWithSpark = textFile.filter(line => line.contains("Spark")) 

linesWithSpark: org.apache.spark.rdd.RDD[String] - MapPartitionsRDD[2] at filter at 
«console»:23 

scala» linesWithSpark.count() 

res2: Long - 19 


在 上 述 代 码 中 ，filter 转 换 接收 一 个 函数 作为 输入 ， 将 每 个 RDD 元 素 作为 参数 来 调用 这 个 
函数 ， 如 果 函 数 返 回 rrue， 元 素 则 保留 在 结果 RDD 中 ， 和 否则 抛弃 。 


这 种 非常 简洁 的 定义 函数 的 方法 在 Scala 函 数 式 编程 中 非常 常见 ， 常 用 的 Scala 语 法 可 以 参考 
本 书后 面 的 附录 。 


为 了 让 代码 更 紧凑 ， 更 函数 式 一 点 ,我 们 可 以 把 两 次 调用 合并 起 来 写 : 


scala» textFile.filter(line => line.contains("Spark")).count() 
res3: Long - 19 
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单机 模式 下 ， 不 但 磁盘 、 内 存 、CPU 资 源 有 限 ， 而 且 是 单 点 ， 无 法 满足 企业 对 可 用 性 方面 的 
高 要 求 ， 因 此 实际 部 署 时 都 会 以 集群 模式 部 署 。 


本 节 会 带领 大 家 一 步 步 部 署 一 个 满足 线 上 需求 的 集群 , 而 且 具 有 高 可 用 的 特点 , 全 集群 没有 
单 点 ， 任 何 一 台 机 器 宕 机 时 集群 依然 可 以 正常 工作 。 
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2.2.1 集群 总 览 


整个 集群 除了 核心 的 Spark 之 外 , 还 有 其 他 多 个 子 集群 , 完整 的 集群 结构 如 图 2-27 所 示 。 为 了 
实现 集群 的 高 可 用 性 ,我 们 引入 了 ZooKeeper 集 群 进行 主 备 切换 。Spark 没 有 存储 能 力 ， 而 且 在 生 
产 环境 下 伴随 大 数据 计算 的 一 般 都 会 有 大 数据 存储 ， 所 以 我 们 引入 了 Hadoop HDFS。 同 时 , 也 引 
A T Hadoop YARN 让 集群 具备 非常 好 的 扩展 性 ， 这 主要 是 考虑 到 让 Spark 与 传统 Hadoop 
MapReduce 并 存 ， 而 且 Hadoop 生 态 中 有 许多 非常 优秀 的 系统 也 依赖 Hadoop HDFS 和 YARN。 


图 2-27 ZooKeeper + Hadoop + Spark 高 可 用 集群 结构 


首先 是 一 个 ZooKeeper 集 群 , 集群 的 机 器 数量 为 2z+1 台 ,可 以 抵御 ? 台 机 器 宕 机 的 风险 ,其 结 
构 如 图 2-28 所 示 。 如 果 z 取 1， 则 总 共 3 台 ， 可 以 抵御 1 台 机 器 穷 机 的 风险 。 所 有 节点 都 是 相同 的 角 


色 ， 但 运行 中 会 自动 选择 一 个 作为 leader。 


图 2-28 ”ZooKeeper 子 集群 的 结构 


ZooKeeper 集 群 担负 集群 的 终极 仲裁 者 的 角色 ，Spark 集 群 的 Master 节 点 的 主 备 切 换 通过 与 
ZooKeeper 集 群 协 商 完 成 ，Hadoop 集 群 中 HDFS 文 件 系统 的 NameNode 节 点 以 及 YARN 中 的 
ResourceManager 也 都 是 通过 ZooKeeper 集 群 来 协助 完成 主 备 切换 。 

其 次 是 Spark 集 群 ， 本 书 的 主角 ， 该 集群 有 两 类 节点 ， 其 结构 如 图 2-29 所 示 。 一 类 是 Master 
节点 ,负责 集群 的 资源 管理 。 只 要 有 一 台 集 群 就 可 以 工作 , 但 是 一 般 至 少 两 台 ， 其 中 一 台 作 为 主 
节点 ， 其 他 热 备 ， 当 主 Master 节 点 异常 下 线 时 ， 其 他 节点 通过 ZooKeeper 集 群 竞争 选 出 新 的 主 节 
点 。 男 一 类 节点 是 Slave 节 点 ， 用 于 执行 计算 任务 ， 机 器 数 量 可 以 是 一 台 ， 也 可 以 是 几 十 、 几 百 


zk2 
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或 上 千 台 。 国 内 互联 网 公司 的 最 大 集群 已 经 达到 上 千 台 规模 。 


图 2-29 ”Spark 子 集群 的 结构 
此 外 ， 还 有 Hadoop 集 群 。Hadoop 从 2.x 开 始 ， 把 存储 和 计算 分 离开 来 ， 形 成 两 个 相对 独立 的 
子 集群 ， HDFS 和 YARN，MapReduce 依 附 于 YARN 来 运行 。 
Hadoop HDFS 是 一 个 分 布 式 文件 系统 ， 为 集群 提供 大 文件 的 存储 能 力 。NameNode 管 理 所 有 
的 文件 信息 ,一 主 一 备 ， 通 过 ZooKeeper 来 实现 容 灾 切换 ，QJM 节 点 的 数量 为 2n + 1， 这 里 3 台 即 
可 ， 负 责 记 录 NameNode 的 流水 日 志 ， 确 保 数据 不 丢失 ，DataNode 担 负 集群 的 存储 负载 ， 用 于 数 


据 存储 ， 如 图 2-30 所 示 。 


DataNode 2 
ZooKeeper 集 群 
图 2-30 ”HDFS 集 群 结构 


Hadoop YARN 为 MapReduce 计 算 提供 调度 服务 ， 而 且 也 可 以 为 其 他 符合 YARN 编 程 接口 要 求 
的 集群 提供 调度 服务 ， 这 也 是 Spark 可 以 借助 YARN 来 做 资源 调度 的 前 提 。 该 集群 有 两 类 节点 : 
ResourceManager 和 NodeManager， 甚 结构 与 Spark 集 群 非常 类 似 ， 其 中 ResourceManager 为 一 主 多 
备 ，NodeManager 一 般 与 DataNode 部 署 在 一 起 ， 实 现 最 高 效 的 数据 访问 ， 如 图 2-31 所 示 。 


ZooKeeper 集 群 
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ZooKeeper4 fit 


NodeManager 1 
NodeManager 2 


ResourceManager (3E) 


ResourceManager ( 备 ) 
NodeManager N 


图 2-31 YARN 集 和 群 结 松 


2.2.2 ”集群 机 器 的 型 号 选择 
Hadoop, 、Spark 等 集群 的 设计 理念 就 是 利用 普通 服务 器 协同 工作 来 实现 大 数据 的 计算 ， 因 此 


集群 可 以 部 署 在 任何 普通 服务 器 上 , 甚至 可 以 部 署 在 个 人 笔记 本 电脑 的 多 个 虚拟 机 上 。 但 集群 各 
节点 的 工作 性 质 不 同 , 对 硬件 资源 的 消耗 也 不 同 ,所 有 合理 的 搭配 可 以 让 资料 得 到 更 充分 的 利用 。 


我 们 从 集群 各 类 节点 的 工作 性 质 上 基本 可 以 了 解 它们 对 于 资源 的 消耗 水 平 ， 具 体 如 表 2-1 


所 示 。 
表 2-1 集群 各 类 节点 的 工作 性 质 
集 8 节 点 主要 工作 资源 消耗 
ZooKeeper ZooKeeper 多 个 节点 竞选 leader 不 明显 
存储 配置 信息 
Spark Master 调度 管理 少量 内 存 
Slave 任务 计算 CPU、 内 存 越 多 越 好 
Hadoop HDFS | NameNode 文件 元 数据 存储 、 访 问 内 存 越 大 支持 的 文件 数量 越 多 
DataNode 存储 数据 磁盘 越 大 存 的 越 多 
QIM 文件 元 数据 日 志 存 储 少量 存储 
Hadoop YARN | ResourceManager 调度 管理 少量 内 存 
NodeManager Hadoop MapReduce 计 算 CPU、 内 存 
但 Spark 程 序 不 需要 


另外 ， 考 虑 到 无 论 是 Spark 计 算 还 是 Hadoop MapReduce 计 算 ， 离 数据 越 近 移动 数据 的 开销 越 
小 ,而 且 在 大 数据 计算 的 大 部 分 场景 下 ， 移 动 数据 的 开销 都 会 大 于 计算 的 开销 ,所 以 计算 节点 与 
存储 节点 一 般 都 会 混合 部 署 。 
因此 ， 我 们 建议 采用 如 下 搭配 。 
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口 这 3 类 节点 部 署 在 相同 的 节点 上 : Spark Slave, HDFS DataNode, YARN NodeManager。 而 
且 这 3 类 节点 在 集群 中 的 数量 最 为 庞大 ， 最 消耗 资源 ， 所 有 CPU 、 硬 盘 和 内 存 资源 都 可 以 
向 它们 倾斜 。 

口 其 他 节点 的 主要 工作 任务 是 管理 。 除 了 NameNode 对 内 存 要 求 高 一 点 之 外 ， 其 他 对 硬件 消 
耗 都 不 大 ， 所 以 都 可 以 混合 部 署 。 机 器 资源 充足 的 可 以 考虑 单独 部 署 ， 毕 竟 节 点 数量 都 
不 多 ， 按 单 节点 容 灾 设计 ， 最 多 也 只 消耗 12 台 ， 最 少 3 台 就 够 。 但 这 些 节点 中 任何 一 个 容 
机 ， 对 集群 都 有 不 小 的 影响 ， 宕 机 两 全 的 话 集群 有 可 能 就 停止 工作 了 ， 所 以 可 以 选择 稳 
定性 较 高 的 配置 ， 比 如 双 电 源 、 磁 盘 RAID。 


具体 到 单机 的 硬件 配置 ， 结 合 Spark 官 方 和 我 的 实际 经 验 ， 有 如 下 建议 。 


口 存储 。Spark Slave 节 点 尽 可 能 靠近 存储 系统 ( 比如 HDFS 和 HBase )， 如 果 不 能 部 署 在 相同 
节点 上 ， 那 么 请 尽 可 能 让 它们 在 物理 位 置 上 更 近 一 些 以 减少 网 络 IO 的 开销 ， 比 如 尽 可 能 
在 相同 机 架 上 、 同 一 个 路 由 器 下 、 相 同 机 房 里 。 而 且 每 个 节点 建议 使 用 4 块 或 更 多 独立 挂 
载 的 硬盘 ， 并 且 不 要 配置 RAID ， 这 样 可 以 提升 Spark 读 写本 地 缓存 数据 时 的 效率 。 

口 内 存 。Spark 节 点 可 以 适应 几 百 吉 字 节 大 小 的 内 存 。 更 多 的 内 存 可 以 缓存 更 多 的 数据 ， 在 
一 些 迭 代 计 算 场 景 下 性 能 提升 效果 非常 明显 。 另 外 , 建议 分 配 最 多 节点 内 存 总 量 的 75% 给 
Spark 使 用 ， 其 他 的 留 给 操作 系统 。 实 际 使 用 多 少 ， 可 以 参考 Web 界 面 上 的 数据 。 

OQ 网 络 。 一 些 需要 进行 shuffle 的 byKey 类 操作 ， 比 如 groupByKey 、requceByKey join, 
它们 的 瓶颈 一 般 都 在 网 络 上 ,所 以 建议 使 用 10 Gbit/s 及 上 网 络 ,在 Spark 程 序 的 Web 界 面 上 ， 
可 以 看 到 shuffle 对 于 网 络 使 用 的 状况 。 

口 CPU。Spark 程 序 可 以 适应 几 十 个 内 核 的 CPU, 而 且 其 计算 性 能 与 CPU 核 数量 基本 成 正比 。 
一 般 建议 8~16 个 核 ， 可 以 结合 实际 负载 与 成 本 综合 考虑 。 一 般 情 况 下 ， 如 果 数 据 已 经 在 
内 存 中 了 ，CPU 和 网 络 IO 会 成 为 瓶颈 。 


总 之 , 单机 硬件 配置 会 严重 影响 集群 的 性 能 , 可 以 结合 实际 负载 情况 在 成 本 与 性 能 之 间 取 得 


平衡 。 


2.2. 


事情 


3 初始 化 集群 机 器 环境 
机 器 配置 好 后 ， 在 正式 部 署 前 ， 需 要 初始 化 每 台 机 器 的 基础 环境 ， 这 里 主要 完成 下 面 这 3 件 


Q 创建 账号 ; 
口 安装 JDK; 

口 设置 时 间 同 步 。 

1. 远程 批量 操作 工具 fabric 

上 面 的 操作 需要 在 所 有 机 器 上 操作 ， 既 要 传 文件 ,还 要 执行 一 些 命令 。 如 果 集 群 规模 达到 上 
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推荐 Python 下 的 fabric。 
在 Ubuntu 下 安装 fabric 的 方法 为 : 


sud 


其 他 平台 下 的 安装 方法 评 
只 需要 一 些 基 本 的 fabric 月 


文件 : 


o apt-get install fabric 


d!/usr/bin/env python 


d = 


fab 


*- encoding:utf-8 -*- 


ric 测 试 


from fabric.api import * 


def 


调 月 


fab 


cp and. grep(key): 


复制 文件 至 远程 机 器 上 ， 并 查找 通过 参数 `key ` 指 定 的 关键 词 。 


# 拼接 shell 登 录 

command = "grep $s test.txt" $ (key) 
# 在 本 地 先 执 行 一 次 

local (command) 

# 传输 本 地 文件 test.txt 至 远程 机 器 的 /tmp 目 录 下 
put('test.txt', '/tmp') 

# 设置 远程 机 器 的 当前 目录 为 /tmp 

with cd( '/tmp/' ): 

# 在 远程 机 器 上 执行 命令 

run (command) 


有 方法 如 下 : 


N 
--fabfile-job.py \ 


--hosts-«IP1»:«3$M1»2,«IP2»5:«3502»5,«IP3»5:«3 23» \ 


--user-«sshfN| P £» \ 
--password-«sshU A85» \ 
Cp. and, grep:key-"Spark" 


下 面 简要 介绍 一 下 上 述 方法 的 参数 。 


口 --fabfile。 指 定 配置 Python 脚本 文件 。 
口 --hosts。 指 定 远程 机 器 IP、 端 口 ， 多 台 机 器 之 间 使 用 逗号 C) 分 隔 。 
口 --user。 指 定 SSH 登 录 时 使 用 的 账号 ， 不 指定 时 使 用 本 地 当前 使 用 的 系统 账号 。 


R, 手工 登录 的 方式 想 想 都 恐怖 ， 所 以 为 了 提升 效果 ， 最 好 能 借助 远程 操作 工具 来 进行 ,这 里 


和 参考 官方 网 站 : http:/www.fabfile.org/installing.html。 
Hik, ， 就 可 以 帮助 我 们 实现 上 百 台 机 器 的 快速 远程 操作 。 这 里 以 复 
制 一 个 文件 到 3 台 机 器 上 ， 查 找 某 关键 字 为 例 来 介绍 。 先 编辑 


个 名 为 job.py 的 Python fabric 配 置 
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D --password。 指 定 SSH 密 码 。 
口 cp_and_grep。 它 为 要 执行 的 Python 配置 脚本 中 的 函数 ， 这 里 需要 设置 参数 key 的 值 为 


" Spark" 2 


当 机 器 数量 太 多 的 时 候 , 在 参数 列表 中 列 出 全 部 机 器 略 有 些 烦 琐 ， 而 且 这 样 的 调用 方式 会 让 
密码 出 现在 shell 历 史 命令 中 。 我 们 可 以 在 Python 配 置 文件 中 指定 机 器 列表 、 用 户 名 以 及 密码 ， 这 
通过 在 job.py 中 的 cpb_anqa_grep 函 数 定义 前 添加 如 下 代码 来 实现 : 


env.user = 'Ssh 用 户 名 ' 

env.password = 'ssh ' 

env.hosts = ['«IP1»:«3$U1»', '«IP2»:«3$U2»', '«IP3»:«3$u03»'] 
这 样 调用 命令 可 以 简化 为 : 

fab \ 


--fabfile-job.py \ 
cp_and_grep:key="Spark" 


而 且 虽 然 配置 文件 中 指定 了 机 需 列 表 ， 在 调试 时 还 是 可 以 手工 指定 目标 机 器 : 
fab N 
--fabfile-job.py \ 
cp and grep:hosts-"«IP1»:«35U01»5;«IP2»5:«35 Uu2»2",key-"Spark" 
在 这 3 种 指定 机 器 的 方式 中 ， 命 令 行 中 函数 名 后 直接 指定 hosts (第 三 种 方法 ) 的 优先 级 最 
， 通 过 env.hosts (第 二 种 方法 ) 其 次 ，--hosts 选 项 (第 一 种 方法 ) 最 低 。 
默认 情况 下 ,fabric 会 按 顺 序 逐 台 机 器 执行 , 我 们 可 以 使 用 --parallel 选 项 让 所 有 操作 并 行 


up 


fab --parallel \ 
--fabfile-job.py \ 
cp and grep:key-"Spark" 


将 配置 文件 的 文件 名 改 为 fabfile.py， 还 可 以 省 去 选项 --fabfile， 调 用 命令 简化 为 : 


fab --parallel cp. and, grep:key-"Spark" 


此 外 ， 使 用 fab -1 命令 ,可 以 查看 fabfile.py 中 所 有 可 用 的 函数 列表 : 


$ fab -1 
fabric 测 试 
Available commands: 
cp and grep 复制 文件 至 远程 机 器 上 ， 并 查找 通过 参数 Key 指 定 的 关键 词 
2. 创建 账号 
有 了 fabric 的 帮助 ， 给 上 百 台 机 器 添加 账号 也 只 是 弹指 一 挥 间 的 功夫 。 出 于 安全 考虑 ， 一 般 
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不 用 root 账 号 来 运行 集群 。 
fabric 配 置 文件 如 下 : 
d!/usr/bin/env python 


d -*- encoding:utf-8 -*- 
from fabric.api import * 


env.user = 'Ssh 用 户 名 ， 
env.password = 'ssh E ' 
env.hosts = ['«IP1»:«3$U1»', '«IP2»:«3$02»', '«IP3»:«3$u3-»'] 


def add user(user-'spark'): 


接着 创建 用 户 ， 用 户 名 通过 参数 user 指 定 : 


run ( nnn 

user="%s" 

if [ "grep "^$user:" /etc/passwd | wc -1^ -eq 0 ]; then 
useradd --shell /bin/bash -m $user 

fi 

$ (user) 

) 

然后 调用 如 下 方法 : 


fab --parallel add user:user-'spark^ 


此 外 ， 我 们 还 可 以 创建 一 个 公共 的 根 目 录 ， 作 为 后 续 所 有 子 系统 安装 的 根 目录 ， 比 如 
/data/ha spark cluster/。 


3. 安装 JDK 

JDK 的 安装 可 以 参考 2.1.1 节 的 说 明 ， 这 里 只 是 改造 成 批量 安装 。 需 要 指出 的 是 ， 考 虑 到 部 署 
的 目标 机 器 可 能 是 新 安装 的 操作 系统 ， 可 能 没有 mm 或 alien 包 ， 而 且 一 般 没 有 外 网 可 以 方便 地 安 
装 这 些 工 具 , 所 以 推荐 使 用 tar.gz 包 来 安装 。 此 时 只 需要 使 用 tar 工 具 , 该 工具 Linux 一 般 都 会 自 带 。 

fabric 中 的 JDK 安 装 函数 如 下 : 


def install, jdk tar(tarfile, install dir): 


2 
EN 
BN 


其 中 参数 tarfile 指 定 JDK tar.gz 包 的 全 路 径 ，install_dir 指 定安 : 


with cd( install dir ): 
# 上 传 文件 
put(tarfile, '.') 
# tar xf, create link 
run(""^ 
pkg- basename $s^ # 包 名 ,比如 jdk-7u80-linux-x64.tar.gz 
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tar xf Spkg # 解压 包 

rm -f $pkg # 解压 之 后 删除 包 

jdkdir=`tar tf $pkg | head -1 | cut -d '/' -f1^ # 获取 解压 之 后 的 路 径 ， 比 如 jdk1.7.0_80 

+ 设置 环境 变量 JAVA_HOME 

echo "export JAVA HOME= ‘pwd /$jdkdir" >> /etc/profile 
""" $ (tarfile) 
) 

4. 设置 时 间 同 步 

集群 要 求 所 有 节点 的 时 间 保 持 同 步 , 并 且 误差 一 般 要求 不 超过 30 秒 , 所 以 需要 让 每 台 机 器 定 
期 调整 一 下 操作 系统 的 时 间 。 


同步 时 间 的 命令 如 下 : 
/usr/sbin/ntpdate <NTP SERVER> ... 


一 般 情况 下 ， 同 步 指 定 多 台 NTP Server， 可 确保 高 可 靠 性 。 


2.24 ”部署 ZooKeeper 集群 
在 所 有 子 系统 中 ，ZooKeeper 的 部 署 最 简单 ， 其 节点 数 必须 是 奇数 。 每 个 节点 的 部 署 过 程 类 
似 ， 大 概 分 为 如 下 几 步 。 


(1) 复制 包 到 所 有 节点 机 器 的 目标 目录 ( 比如 /data/ha_spark_cluster/zookeeper ), Hj scp 命令 
或 者 fabric 进行 批量 操作 。 注 意 设置 目标 目录 的 权限 。 

(2) 编辑 配置 文件 并 将 其 复制 到 所 有 节点 。 
安装 包 下 的 conf/zoo_sample.cfg 为 配置 模板 ， 其 中 有 各 配置 项 的 详细 说 明 : 


服务 器 之 间或 客户 端 与 服务 器 之 间 维 持 心 跳 (tick) 的 时 间 间 隔 ， 单 位 是 毫秒 
tickTime=2000 


集群 中 的 follower 服 务 器 与 leader 服 务 器 之 间 ， 在 初始 连接 时 能 容忍 的 最 多 心跳 数 
initLimit=10 


集群 中 的 follower 服 务 器 与 leader 服 务 器 之 间 ， 在 请 求 和 应 答 之 间 能 容 怒 的 最 多 心跳 数 
syncLimit=5 


ZooKeeper 保 存 数据 的 目录 
不 要 用 /tmp 目 录 ， 因 为 机 器 重启 之 后 会 被 删除 ， 这 里 只 是 示例 
dataDir-/tmp/zookeeper 


ZooKeeper 监 听 的 端口 ， 客 户 端 通过 这 个 端口 连接 到 ZooKeeper 服 务 器 
clientPort=2181 


最 大 客户 匣 连 接 数 。 客 户 说 过 多 时 可 以 增加 本 配置 项 的 值 
maxClientCnxns=60 
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大 部 分 配置 都 可 以 采用 默认 值 ， 需 要 重新 设置 的 是 aataDir。 默 认 情 况 下 ， 它 在 /tmp 有 目 
录 下 ， 重 启 之 后 数据 可 能 丢失 ， 需 要 将 其 设置 为 其 他 目录 ， 比 如 /data/ha_spark_cluster/ 
zookeeper/dataDir。 
另外 ,我们 需要 在 配置 文件 最 后 追加 集群 节点 信息 。 下 面 以 3 个 节点 为 例 进行 介绍 : 
server.l=<host1>:2888:3888 
Server.2-«host2»:2888:3888 
Sserver.3-«host2»:2888:3888 
其 中 2888 和 3888 代 表 两 个 端口 号 ( 可 以 换 成 其 他 端口 ) 用 于 ZooKeeper 节 点 之 间 的 通信 ， 
最 典型 的 场景 是 follower 节 点 通过 前 面 的 端口 连接 leader， 使 用 后 面 的 端口 来 竞选 新 的 
leader。 
需要 注意 的 是 ， 新 的 配置 文件 需要 复制 到 所 有 ZooKeeper 节 点 上 去 。 
(3) 启动 所 有 节点 。 
在 每 个 节点 上 进入 安装 目录 ， 执 行 如 下 命令 
./bin/zkServer.sh start 
然后 查看 当前 节点 的 状态 
$ ./binServer.sh status 
JMX enabled by default 
Using config: /usr/local/rt cluster/zookeeper-3.4.6/bin/../conf/zoo.cfg 
Mode: follower 
可 以 发 现 ，Modqe 的 值 为 follower， 说 明 当 前 节点 不 是 leader 节 点 。 
(4) 连接 测试 。 


在 任意 节点 上 执行 ./bin/zkCli.sh 可 以 连接 到 当前 节点 的 ZooKeeper 服 务 器 , 进入 交互 式 操 
作 模 式 o 
使 用 he lp 命令 可 以 查看 帮助 信息 AN > 具体 如 下 : 


[zk: localhost:2888 (CONNECTED) 0] help 
ZooKeeper -server host:port cmd args 
connect host:port 
get path [watch] 

ls path [watch] 


set path data [version] 

rmr path 

delquota [-n|-b] path 

quit 

printwatches on|off 

create [-s] [-e] path data acl 


stat path [watch] 
close 
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ls2 path [watch] 
history 

listquota path 

SetAcl path acl 

getAcl path 

sync path 

redo cmdno 

addauth scheme auth 
delete path [version] 
setquota -n|-b val path 


2.2.5 编译 Spark 


绝 大 部 分 情况 下 ， 我 们 不 需要 自己 编译 Spark， 官 方 已 经 提供 了 非常 多 的 匹配 不 同 Hadoop 版 
本 的 Spark 包 供 下 载 ， 如 图 2-32 所 示 。 


Download Spark 
The latest release of Spark is Spark 1.4.1, released on July 15, 2015 (release notes) (git tag) 


1. Choose a Spark release: [1.4.1 (Jul 15 2015) v 


2. Choose a package type: | Source Code [can build several Hadoop versions] M 
Source Code [can build several Hadoop versions] 
3. Choose a download type Pre-build with user- provided Hadoop [can use with most Hadoop distributions] 
4. Download Spark: spark-1 Pre-built for Hadoop 2.6 and later 
Pre-built for Hadoop 2.4 and later 
5. Verify this release using 1 Pre-built for Hadoop 2.3 


P ,., | Pre-built for Hadoop 1.X 
Note: Scala 2.11 users should d pre-built tor CDH 4 


图 2-32 ”选择 Spark 包 


除了 Hadoop 发 行 版 本 不 同 外 ， 默 认 的 安装 包 包括 如 下 特性 : 


口 支持 Java 6+; 
a 使 用 Scala 2.10; 
O 支持 JDBC 服 务 和 命令 行 客户 端 、 集 成 Hive 0.13.1 ( 目前 也 只 能 集成 这 个 版 本 )， 支 持 Hive 
和 Hive Thrift server。 
如 果 这 些 已 经 能 够 满足 你 的 需要 了 , 可 以 跳 过 本 节 , 直接 选择 一 个 合适 的 预 编译 版 本 下 载 下 
来 就 好 了 。 
如 果 你 有 下 面 这 些 特定 需求 ， 可 以 考虑 重新 编译 Spark: 
口 指定 特定 的 HDFS 版 本 ; 
O 指定 特定 的 YARN 版 本 ， 可 以 与 HDFS 不 一 样 ， 仅 支持 2.2.0 及 更 高 版 本 ; 
口 使 用 Scala 2.11. 
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Spark 的 运行 版 本 使 用 mvn 来 编译 , 已 经 集成 在 源码 中 了 。 如 果 当 前 机 需 有 外 网 ， 或 者 配置 了 
http 代 理 ， 就 可 以 直接 调用 编译 命令 来 进行 编译 了 。 


编译 命令 如 下 : 


./build/mvn \ 
-Phadoop-Xx.y \ 
-Dhadoop.versionzx.y.z \ 
-Pyarn \ 
-Dyarn.version-X.y.z \ 
-Phive -Phive-thriftserver \ 
-Dscala-2.11 \ 
-DskipTests clean package 


下 面 简要 介绍 各 个 参数 的 含义 。 


口 -Phadoop-x.y.; 用 于 指定 Hadoop 的 主 版 本 号 ， 默认 的 选项 是 -Phadoop-2 SAD 
O -Dhadoop.version-x.y.z. HEM, 用 于 指定 HDFS 子 版 本 号 。 比 如 ， 对 于 Hadoop 1.x 
系列 ， 可 以 这 样 : 


-Phadoop-1 -Dhadoop.version-1.2.1 


对 于 Cloudera 的 CDH “mrl” 系 列 ， 则 可 以 这 样 : 
-Phadoop-1 -Dhadoop.version-2.0.0-mr1-cdh4.2.0 
口 -Pyarn。 用 于 开启 YARN 功 能 。 


口 -Dyarn.version=x.y.z。 可 选项 ,YARN 默 认 使 用 与 HDFS 相 当 的 版 本 ， 如 果 不 同 ， 则 
可 以 用 此 选项 指定 。 比 如 在 下 面 的 示例 中 ，HDFS 版 本 是 2.3.0，YARN 版 本 是 2.2.0: 


-Phadoop-2.3 -Dhadoop.version=2.3.0 -Pyarn -Dyarn.version=2.2.0 


口 -Phive -Phive-thriftserver。 用 于 开启 JDBC 和 Hive 0.13.1 功 能 。 
口 -Dscala-2.11。 用 于 指定 Scala 版 本 为 2.11， 而 不 是 默认 的 2.10。 

口 -DskipTests。 这 里 忽略 测试 过 程 
D clean package。clean 和 package 是 编译 日 标 ，clean 执 行 一 些 清 理工 作 ， 比 如 删除 
上 一 次 打包 时 的 痕迹 ，package 用 于 编译 并 打包 。 


另外 ,在 编译 之 前 ， 可 以 设置 让 mvn 使 用 更 大 的 内 存 以 提升 效率 ; 

export MAVEN OPTS-"-Xmx2g -XX:MaxPermSize-512M -XX:ReservedCodeCacheSize-512m" 

最 后 ， 我 们 还 可 以 在 编译 的 同时 指定 打包 成 .tegz 的 形式 ， 就 像 官 网 上 提供 的 下 载 包 一 样 ， 方 
便 发 布 ， 具 体 方法 是 使 用 . /make-aistribution.sh --name custom-spark --tgz 来 替换 
上 面 的 编译 命令 . /build/mvn。 


下 面 是 一 个 示例 ， 用 于 指定 Hadoop 版 本 为 最 新 的 2.7.1， 开 启 YARN 和 JDBS， 默 认 使 用 的 是 
Scala 版 本 ， 编 译 后 打包 成 .tgz 的 形式 : 


o 
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./make-distribution.sh \ 
--name spark-1.4.1-bin-hadoop2.7.1 --tgz \ 
-Phadoop-2.7 -Dhadoop.version-2.7.1 \ 
-Pyarn \ 
-Phive -Phive-thriftserver ^ 
-DskipTests clean package 


2.2.6 $Æ Spark Standalone 集群 


部 署 Spark Standalone 集 群 的 过 程 主要 分 为 3 步 。 
(1) 在 每 个 Master WAE, 配置 运行 账户 ssh 免 密码 登录 到 每 台 Slave 节点 上 。 假设 我 们 的 集 


群 包含 2 个 Master 节点 ，10 个 Slave 节 点， 那么 需要 配置 2 x 10=20 次。 

此 外 ， 出 于 安全 考虑 ， 建 议 不 要 使 用 root 账 户 来 运行 Spark， 所 以 最 好 在 每 台 机 器 上 创建 
一 个 专用 账户 。 

要 配置 从 A 节 点 用 x 账 户 ssh 免 密码 登录 到 B 节 点 ， 首 先 在 A 机 器 上 切换 到 x 用 户 下 ， 执 行 如 
下 命令 : 

ssh-keygen -t dsa -P '' -f -/.ssh/id dsa 


接着 将 执行 上 述 命令 后 生成 的 文件 ~/.ssh/id_dsa.pub 的 内 容 ， 追 加 至 B 机 器 x 用 户 下 的 文件 
~/.ssh/authorized keys. 
若 配 置 好 ， 那 么 在 A 机 器 上 用 x 用 户 执行 ssh B 命 令 时 不 需要 输入 密码 。 
为 何 一 上 来 就 要 摘 这 人 么 麻烦 的 配置 呢 ? 因为 后 续 的 一 大 堆 集 群 管理 脚本 都 依赖 这 一 特 
性 ， 而 且 我 们 在 分 发 JDK 、 安 装 包 、 配 置 文件 时 也 会 受益 。 另 外 ，Hadoop 部 署 时 ， 也 需 
要 配置 ssh 免 密码 登录 。 
理论 上 ， 可 以 不 做 这 一 项 配置 ， 只 需 设 置 一 个 环境 变量 SPARK_SSH_FOREGROUND， 然 后 
每 次 启 停 集 群 时 ， 每 个 Slave 节 点 都 需要 输入 数 次 密码 ， 如 果 节 点 达到 上 百 个 ， 则 需要 输 
入 数 百 次 密码 ， 相 当 上 烦琐 。 

(2) 把 Spark 压缩 包 复制 到 每 个 机 器 上 ， 并 解压 缩 。 

(3) 编写 配置 文件 ， 分 发 到 所 有 节点 。 这 里 有 两 个 配置 文件 是 必需 的 ， 有 具体 如 下 。 
口 conf/slaves。 里 面 是 所 有 Slave 节 点 的 地 址 ， 以 IP 或 hostname 的 形式 标识 ， 每 行 一 个 。 

比如 ， 有 3 个 Slave 节 点 ， 它 们 通过 IP 来 标识 ， 则 文件 内 容 是 : 


192.168.1.3 
192.168.1.4 
19233168..425 
口 conf/spark-env.sh。 里 面 是 Spark 集 群 的 一 些 环境 变量 ， 比 如 前 面 提 到 的 JAVA_HOME 也 
在 这 里 定义 。 
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安装 包 提 供 了 模板 spark-env.sh.template， 我 们 在 它 的 基础 上 编辑 即 可 : 

cp spark-env.sh.template spark-env.sh 

spark-env.sh 是 一 个 标准 的 bash 脚 本 ， 里 面 有 很 多 注释 , 可 以 帮助 我 们 理解 配置 项 。 所 有 酝 
置 项 都 非 必须 ， 只 是 为 了 满足 更 个 性 化 的 部 署 需求 。 

这 里 我 们 配置 一 下 JAVA_HOME 即 可 (如 果 部 署 时 配置 了 系统 环境 变量 , 这 里 也 可 以 省 略 )。 
配置 文件 准备 好 后 ， 将 其 分 发 到 所 有 节点 上 。 

前 面部 署 的 集群 虽然 可 以 运行 ， 但 有 一 个 风险 : 如 果 任 何 一 台 机 器 宕 机 ， 则 集群 就 失效 
了 ， 这 对 于 企业 级 应 用 来 说 是 不 能 接受 的 。 

下 面 我 们 来 介绍 如 何 打造 具备 高 可 用 ( 简称 HA ) 特性 的 集群 : 集群 在 任意 一 台 机 器 宕 机 
的 情况 下 ,依然 可 以 正常 运转 。 如 果 单 机 的 可 靠 性 是 99% 的 话 , 那么 容许 任意 一 台 机 器 宕 
机 的 集群 的 可 用 性 可 以 提高 至 99.99%， 效 果 非 常 显著 。 

在 Standalone 模 式 下 ， 集 群 可 以 容许 某 一 个 或 多 个 工作 节点 失效 。 当 工作 节点 失效 时 ， 


Master 会 自动 将 未 完成 的 任务 转移 至 其 他 节点 重新 计算 , 但 Master 节 点 本 身 是 一 个 单 点 ， 
是 HA 的 瓶颈 。 


Spark 提 供 了 两 种 级 别 的 HA 解决 方案 ， 具 体 如 下 所 示 。 


口 第 一 种 方案 是 使 用 ZooKeeper ， 多 个 Master 节 点 都 连接 到 这 个 ZooKeeper 集 群 ， 通 过 


ZooKeeper 竞 选 出 一 个 活动 的 Master 节 点 ， 其 他 节点 热 备 。 当 活动 Master 节 点 死亡 之 后 ， 
其 他 的 Master 方 点 再 次 竞选 出 一 个 活动 节点 ， 重 新 竞选 恢复 服务 的 过 程 只 需要 1~2 分 钟 ， 
这 期 间 只 有 新 任务 受 影响 不 能 提交 ， 老 任务 可 以 继续 执行 。 
显然 ， 这 种 方案 非常 适合 线 上 正式 环境 ， 满 足 任何 一 个 节点 宕 机 集群 都 可 以 继续 工作 的 
高 可 用 要 求 ， 但 需要 额外 部 署 一 套 ZooKeeper 集 群 ， 好 在 ZooKeeper 对 硬件 要 求 不 高 ， 可 
以 与 Master 节 点 或 Hadoop Namenode 节 点 共用 机 器 资源 。 


前 面 我 们 已 经 部 署 好 了 ZooKeeper 集 群 ，Spark 配 置 使 用 ZooKeeper， 只 需要 在 conf/spark- 
envsh 中 设置 环境 变量 SPARK_DAEMON_JAVA_OPTS， 并 在 它 的 内 容 中 指定 以 下 3 个 参数 。 


B spark.deploy.recoveryMode,; 设置 为 ZOOKEEPER。 

E Spark .deploy.zookeeper.ur1l。ZooKeeper 集 群 地 址 ( 比如 ，192.168.1.100:2181 和 
192.168.1.101:2181 )。 

E Spark .deploy.zookeeper.dir。 在 ZooKeeper 上 的 目录 (比如 default:/spark )。 

示例 代码 如 下 : 

export SPARK DAEMON JAVA OPTS-"-Dspark.deploy.recoveryMode-ZOOKEEPER 


-Dspark.deploy.zookeeper.url1-192.168.1.1:2181,192.168.1.2:2181,192.168.1.3:2181 
-Dspark.deploy.zookeeper.dir-/spark" 


2.2 高 可 用 Spark 分 布 式 集群 部 署 39 


第 二 种 方案 是 针对 单个 节点 的 。 如果 你 不 需要 ZooKeeper 那 么 高 的 可 用 性 , 只 是 希望 Master 
poe ， 再 重启 时 可 以 恢复 到 之 前 的 状态 ， 那 么 Spark 提 供 了 另外 的 选择 : 文件 系 
统 模式 。 在 这 种 模式 下 ，Master 会 在 本 地 磁盘 中 写 人 足够 的 信息 , 在 重启 时 可 以 确保 之 前 
中 断 的 任务 可 以 继续 完成 。 
虽然 我 们 不 推荐 使 用 这 种 方式 ， 但 还 会 介绍 一 下 其 配置 方法 : 设置 SPARK_DAEMON | 
Java_oprs 参 数 的 值 涉及 的 选项 名 称 如 下 所 示 。 
E spark.deploy.recoveryMode,; 设置 为 FILESYSTEM。 
B Spark .deploy.recoveryDirectory。 本 地 目录 ， 用 于 保存 恢复 信息 。 
示例 代码 如 下 : 


export SPARK, DAEMON JAVA OPTS-"-Dspark.deploy.recoveryMode 
-FILESYSTEM -Dspark.deploy.recoveryDirectory 
-/data/spark/recoveryDirectory/" 


部 署 完成 后 ， 就 可 以 启动 集群 了 ,具体 方法 是 登录 到 一 个 Master 节 点 ,进入 安装 目录 , 执 
行 如 下 命令 : 
./sbin/start-all.sh 
此 时 会 启动 本 机 作为 Master， 并 且 启 动 conf/slaves 中 的 所 有 节点 作为 Slave。 
其 他 的 Master 节 点 也 需要 单独 启动 Master 服 务 : 
./Sbin/start-master.sh 
多 个 Master 会 自动 连接 ZooKeeper， 竞 选 出 一 个 活跃 的 Master， 其 他 的 进入 热 备 状态 
停止 集群 的 方法 是 : 
sbin/stop-all.sh 


此 外 ，sbin 目 录 下 还 提供 了 更 多 细 粒 度 的 集群 操作 工具 ， 上 具体 如 下 。 


口 sbin/start-master.sh。 在 本 机 启动 一 个 Master 实 例 。 

口 sbin/stop-master.sh。 停 止 本 机 通过 bin/start-master .sh 启动 的 Master 实 例 。 
口 sbin/start-slave.sh。 在 本 机 启动 一 个 Slave 实 例 。 

口 sbin/stop-slave.sh。 停 止 本 机 通过 bin/start-slave.sh 启 动 的 Slave 实 例 。 

D sbin/start-slaves.sh。 在 conf/slaves 指 定 的 每 台 机 器 上 启动 一 个 Slave 实 例 。 
口 
m 


sbin/stop-slaves.sh。 停止 所 有 通过 sbin/start-slaves .sh 启动 的 Slave 实 例 。 


动 之 后 ， 可 以 通过 当前 活跃 的 Master 的 Web 界 面 http://<active-master-ip>:8080 查 
看 集群 的 运行 状况 。 
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2.2/7 ”高 可 用 Hadoop 集群 


Spark 的 优势 是 计算 ， 不 提供 存储 功能 ， 而 且 本 身 的 资源 调度 策略 比较 简单 ， 所 以 与 Hadoop 
混合 部 署 ， 可 以 充分 利用 HDFS 的 存储 功能 以 及 YARN 的 调度 优势 。 这 种 混合 部 署 是 一 种 最 常用 
的 部 署 方式 。 

Hadoop 从 2.x 时 代 开始 ， 内 部 拆 分 成 了 独立 的 几 个 模块 ， 存 储 与 计算 功能 相对 独立 。 

O HDFS 为 分 布 式 文件 系统 ， 专 门 负 责 文件 存储 。 

Q MapReduce ( 简称 MR ) 是 计算 框架 ， 提 供 计算 支持 。 

口 YARN 是 资源 调度 模块 ，MapReduce 程 序 由 YARN 来 调度 运行 ， 同 时 YARN 还 可 以 为 其 他 
系统 提供 调度 服务 ， 比 如 Spark。 

Spatk 可 以 单独 使 用 HDFS 或 YARN， 或 者 两 者 同时 使 用 。 

Hadoop 的 部 署 不 在 这 里 详 述 ， 这 里 只 是 给 出 一 些 部 署 建议 。 

在 Hadoop 2.x 之 前 的 版 本 中 ，NameNode 节 点 是 单 点 ， 一 旦 NameNode 节 点 宕 机 ， 整 个 集群 将 


无 法 工作 ， 只 能 手工 恢复 。Hadoop 2.4 之 前 的 YARN， 它 的 ResourceManager 也 是 单 点 ， 直 到 2.4 才 
支持 双 机 热 备 自动 容 灾 切 换 ， 所 以 出 于 可 用 性 考虑 ， 建 议 部 署 2.4 及 以 上 版 本 的 Hadoop。 

对 于 已 经 部 署 但 没有 配置 HA 的 Hadoop 系 统 , 增加 配置 HA 相对 于 完整 部 署 简单 多 了 ,只 需要 
更 新 一 些 配置 ， 再 增加 部 署 2 + 1 个 QJM 节 点 或 者 使 用 可 选 的 网 络 文件 系统 (NFS ) 即 可 ， 具 体 
可 参考 官方 文档 或 其 他 资源 。 


2.2.8 让 Spark 运行 在 YARN 上 


在 Spark Standalone 模 式 下 ， 集 群 资源 调度 由 Master 节 点 负责 。Spark 也 可 以 将 资源 调度 交 给 
YARN 来 负责 ， 其 好 处 是 YARN 支 持 动态 资源 调度 。Standalone 模 式 只 支持 简单 的 固定 资源 分 配 策 
略 ， 每 个 任务 固定 数量 的 core， 各 Job 按 顺序 依次 分 配 资源 ， 资源 不 够 时 排队 等 待 。 这 种 策略 适用 
单 用 户 的 场景 , 但 在 多 用 户 时 , 各 用 户 的 程序 差别 很 大 ,这 种 简单 粗暴 的 策略 很 可 能 导致 有 些 用 
户 总 是 分 配 不 到 资源 ， 而 YARN 的 动态 资源 分 配 策 略 可 以 很 好 地 解决 这 个 问题 。 关 于 资源 调度 ， 
第 3 章 中 还 会 详细 讲解 。 

另外 ，YARN 作 为 通用 的 资源 调度 平台 , 除了 为 Spark 提 供 调 度 服务 外 ,还 可 以 为 其 他 子 系统 
( 比如 Hadoop MapReduce, Hive) 提供 调度 ， 这 样 由 YARN 来 统一 为 集群 上 的 所 有 计算 负载 分 配 
资源 ， 可 以 避免 资源 分 配 的 混乱 无 序 。 

在 Spark Standalone 集 群 部 署 完成 之 后 , 配置 Spark 支 持 YARN 就 相对 容易 多 了 ,只 需要 进行 如 
下 两 步 操作 。 


(1) 在 conf/spark-env.sh 中 增加 一 项 配置 HADOOP_CONF_DIR， 指 向 Hadoop 集群 的 配置 文件 
目录 ， 比 如 : 
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export HADOOP_CONF_DIR=/usr/local/rt_cluster/hadoop-2.6.0/conf 
这 里 配置 同样 需要 分 发 至 所 有 节点 。 
(2) 重启 集群 。 


另外 ， 即 便 不 部 署 Hadoop 集 群 ，Spark 程 序 还 是 可 以 访问 HDFS 文 件 的 : 添加 一 些 依赖 的 jar 
文件 ， 然 后 通过 以 hdfs:/ 开 头 的 完整 路 径 即 可 。 但 缺点 也 很 明显 ， 因 为 HDFS 与 Spark 节 点 是 分 离 
的 , 数据 移动 成 本 很 高 ， 大 部 分 情况 下 都 会 大 于 计算 成 本 ,因此 应 用 的 局 限 性 很 明显 ,不 适合 大 
数据 量 时 的 计算 。 


经 过 上 述 的 部 署 ，Spark 可 以 很 方便 地 访问 HDFS 上 的 文件 ， 而 且 Spark 程 序 在 计算 时 ， 也 会 
让 计算 尽 可 能 地 在 数据 所 在 的 节点 上 进行 ， 节 省 移动 数据 导致 的 网 络 IO 开 销 。 
Spa 水 程序 由 Master 还 是 YARN 来 调度 执行 ， 是 由 Spark 程 序 在 提交 时 决定 的 。 以 计算 圆周 率 
Pi 的 示例 程序 为 例 ，Spark 程 序 的 提交 方式 是 : 
$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \ 
--master spark://«active-master-ip»:«port» \ 


lib/spark-examples*.jar \ 
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其 中 参数 --master 决 定 调度 方式 : 如 果 该 参数 的 值 以 spark:// 开 头 , 则 使 用 Spark 自 己 的 Master 
节点 来 调度 ; 如 果 其 值 是 yxarn-client 或 yarn-cluster， 则 是 使 用 YARN 来 调度 ， 而 YARN 的 
具体 地 址 会 从 前 面 配置 的 Hadoop 配 置 目 录 下 的 配置 文件 中 得 到 。 


YARN 调 度 有 如 下 两 种 模式 。 


O yarn-cluster 模 式 。YARN 会 先 在 集群 的 某 个 节点 上 为 Spark 程 序 启 动 一 个 称 作 Master 的 进 
程 ， 然 后 Driver 程 序 会 运行 在 这 个 Master 进 程 内 部 ， T Master KH 动 Driver 程 序 ， 
客户 端 完成 提交 的 步骤 后 就 可 以 退出 ,不 需要 等 待 Spark 程 序 运 行 结束 。 这 是 一 种 非常 适 
合生 产 环境 的 运行 方式 。 
O yarn-client 模 式 。 跟 yarn-cluster 模 式 类 似 ,， 这 也 有 一 个 Master 进 程 ， pio BEER 
在 Master 进 程 内 部 ， 而 是 运行 在 本 地 ， 只 是 通过 Master 来 申请 资源 ， 直 至 程序 运行 结束 。 
这 种 模式 非常 适合 需要 交互 的 计算 。 
Spark 程 序 在 运行 时 , 大 部 分 计算 负载 由 集群 提供 , 但 Driver 程 序 本 身 也 会 有 一 些 计 算 负载 。 
在 yarn-cluster 模 式 下 ，Driver 进 程 在 集群 中 的 某 个 节点 上 运行 ， 基 本 不 占用 本 地 资源 。 而 在 
yarn-client 模 式 下 ，Driver 会 对 本 地 资源 造成 一 些 压力 ， 但 优势 是 Spark 程 序 在 运行 过 程 中 可 以 
进行 交互 。 所 以 , 建议 只 在 有 交互 需求 的 情况 下 才 使 用 yarn-client 方 式 , 其 他 都 使 用 yarn-cluster 
模式 。 
下 面 还 是 以 计算 圆周 率 为 例 来 说 明 ， 因 为 不 需要 本 地 交互 ， 所 有 可 以 使 用 yarn-cluster 模 式 来 


运行 : 


7 
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$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \ 
--master yarn-cluster ^ 
lib/spark-examples*.jar \ 
10 


2.249 一 键 部 署 高 可 用 Hadoop + Spark 集群 


前 面 的 部 署 过 程 需要 我 们 一 步 步 地 手工 操作 , 费时 费力 , 而 且 一 旦 出 错 , 一 般 都 得 从 头 再 来 。 
对 于 一 个 Spark 新 人 来 说 ， 整 体 过 程 可 能 需要 一 周 的 时 间 。 为 了 让 新 人 们 可 以 快速 体验 Spark 集 群 
的 威力 , 我 整理 了 一 些 脚 本 , 汇总 之 后 形成 了 一 套 脚 本 工具 ， 在 这 套 工 具 的 协助 下 ， 只 需要 下 载 

些 安装 包 ， 做 一 下 简单 的 配置 ， 即 可 完成 上 述 高 可 用 Hadoop + Spark 集 群 的 部 署 。 如 果 机 器 及 
网 络 资源 到 位 ，1~2 小 时 即 可 完成 部 署 。 该 工具 位 于 GitHub: https://github.com/marc-chen/hadoop- 
Spark-installer。 

1. 准备 机 器 

所 有 机 顺 分 为 两 类 : Master 和 Slave。 

Master 机 器 的 要 求 如 下 。 


O 安装 软件 : sshd、Python 2 fabrico 

口 3 台 即 可 ， 建 议 硬件 、 软 件 配置 完全 相同 。 

口 对 硬件 性 能 要 求 不 高 ， 一 般 服 务 器 都 可 以 满足 。 

Slave 机 器 的 要 求 如 下 。 

口 启动 sshd 服 务 。 

口 建议 3~100 台 , 人 硬件、 软件 配置 完全 相同 , 存储 、CPU、 内 存 越 大 越 好 , 具体 可 参考 Hadoop 
和 Spark 对 便 件 的 要 求 。 

2. 快速 安装 

具体 的 安装 步骤 如 下 。 

(1) 下 载 安装 包 。 

(2) 编辑 配置 文件 conf/hosts 和 conf/config， 具 体 可 以 参考 目录 下 的 模板 文件 。 

(3) 手工 下 载 需 要 的 项 目 安 装 包 到 packages 目录 ,包括 ZooKeeper, Hadoop, Spark, WEHE 
新 的 稳定 版 本 即 可 。 

(4) 执行 一 键 安装 : 


./install.sh all 


注意 事项 嘿 请 确保 直接 使 用 root 登 录 执行 安 装 , 不 要 使 用 su, 否则 fabric 可 能 出 现 不 兼容 的 情况 。 
加 如 果 密 钥 登 录 不 起 人 作用， 尝试 重 启 sshd。 
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3. 启动 服务 
进入 Master 机 器 的 安装 目录 ( 比如 /ust/local/myhadoop/ )， 执 行 admin.sh 会 看 到 帮助 信息 : 


> ./ladmin.sh 
Usage: ./admin.sh (zookeeper|hadooplspark) (start|stop) 


先 启动 ZooKeeper: 


./admin.sh zookeeper start 
再 启动 Hadoop ， 如 果 是 第 一 次 启动 ， 需 要 先 初 始 化 一 下 ， 相 关 命令 为 : 


cd hadoop 
./namenode format.sh 
GU 


接着 启动 Hadoop: 


./admin.sh hadoop start 


最 后 启动 Spark: 


./admin.sh spark start 


通过 这 样 简单 的 几 步 操 作 ， 即 可 部 署 完 集群 。 


2.3 Spark 编程 指南 


Spark 用 Scala 语 言 开 发 ， 而 且 Scala 语 言 的 函数 式 编程 特性 让 代码 的 可 读 性 非常 高 ， 所 以 本 节 
主要 以 Scala 语 言 为 示例 来 讲解 运行 在 Spark 上 的 程序 的 编写 。 对 于 第 一 次 接触 Scala 语 言 的 读者 ， 
可 以 参考 附录 快速 了 解 Scala 的 语法 。 


2.8.4 交互 式 编程 

Scala 本 身 是 一 种 非常 灵活 的 语言 ， 既 可 以 实现 大 型 的 系统 C 比如 Spark ), 也 可 以 当 作 脚本 语 
言 来 使 用 ， 而 且 支 持 交 互 式 编程 。 
Spark 在 设计 之 初 ， 就 把 编程 的 易 用 性 作为 一 项 核心 目标 来 实现 。 此 外 ，Spark 程 序 也 支持 交 
互 式 编程 ， 这 个 特性 无 论 是 对 于 新 人 还 是 经 验 丰富 的 程序 员 来 说 ， 都 带 来 非常 棒 的 便利 性 。 

下 面 我 们 先 来 看 一 下 Hadoop MapReduce 程 序 的 过 程 。 即 使 是 官方 文档 2.7.1 版 本 中 提供 的 最 
简单 的 WordCount 示 例 程序 ， 也 至 少 需要 下 面 这 几 步 。 


(1) 用 文本 编辑 器 编写 61 行 Java 代码 ， 并 将 其 保存 在 一 个 文件 中 。 
Q) 编译 代码 。 
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(3) 打包 成 JAR 包 。 
(4) 提交 至 Hadoop 集群 执行 。 


TE 


相 比 之 下 ，Spark 提 供 了 交互 式 编程 ， 直 接 交 互 式 输入 代码 ， 就 可 以 看 到 代码 马上 被 执行 # 


显示 执行 结果 。 下 面 以 WordCount 为 例 ， 执 行 下 面 的 命令 进入 交互 式 编程 环境 : 


./bin/spark-shell 


样 的 信息 : 


Spark context available as sc. 


看 到 


屏幕 深 动 上 百 行 日 志 之 后 , 我 们 看 到 了 与 普通 Scala 解 释 器 一 样 的 交互 式 界面 。 在 日 志 中 可 以 
这 


这 说 明 解释 器 已 经 帮助 我 们 初始 化 了 一 个 sparkcontext 对 象 的 实体 ,名 为 sc, 我 们 可 以 直 


接 使 用 。 
输入 下 面 的 代码 ， 就 会 自动 编译 、 提 交 并 马上 运行 : 


val textFile = sc.textFile("README.md") 

val wordCounts - textFile.flatMap(line -» line.split(" ")).map(word 
-» (word, 1)).reduceByKey((a, b) -» a + b) 

wordCounts.collect() 


执行 完成 后 ， 得 到 的 结果 如 下 : 


resi: Array[(String, Int)] = Array((package,1), (this,1), (Version"] 
(http://spark.apache.org/docs/latest/building-spark.html 
dspecifying-the-hadoop-version),1), (Because,1), (Python,2), 
(cluster.,1), (its,1), ([run,1), (general,2), (have,1), (pre-built,1), 
(locally.,1), (1ocally,2), (changed,1), (sc.parallelize(1,1), (only,1), 
(several,1), (This,2), (basic,1), (Configuration,1), (learning,,1), 
(documentation,3), (YARN,1), (graph,1), (Hive,2), (first,1), (["Specifying,1), 
("yarn-client",1), (page](http://spark.apache.org/documentation.html),1), 
([params] .,1), (application,1), ([project,2), (prefer,1), (SparkPi,2), 
(«http://spark.apache.org/»,1), (engine,1), (version,1), (file,1), 
(documentation,,1), (MASTER,1), (example,3) (distribution.,1), 
( 


are,1), (params,1), (scala»,1), (syvstems.,1... 


2.3.2 RDD 创建 
Spark 计 算 都 是 围绕 RDD 进 行 的 。 首 先 ， 我 们 需要 创建 一 个 RDD， 生 成 方式 


总 结 起 来 有 两 大 


类 :第 一 类 是 由 Driver 程 序 的 数据 集 生成 ,第 二 类 是 由 外 部 数据 集 生成 , 比如 共享 文件 系统 、HDFS 


文件 和 HBase 等 。 
1. 从 Driver 程 序 的 数据 集 生 成 RDD 
从 Driver 数 据 集 生 成 RDD 的 最 直接 的 方法 是 使 用 sparkcontext 对 象 的 para 


llelize 方 法 ， 


其 参数 是 一 个 seq 对 象 。 由 于 Scala 文 持 方便 的 隐 式 类 型 转换 ， 因 此 其 他 可 以 被 自动 转换 成 Seq 的 
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对 象 也 可 以 作为 parallelize 的 参数 ， 比 如 Array。 此 外 ，Sseq 的 子 类 对 象 也 可 以 作为 参数 ， 比 
如 List。 下面 是 使 用 seg 作 为 输入 参数 的 示例 : 


val data 
val rdd 


或 者 可 以 从 一 个 Array 对 象 生成 RDD: 


val data = Array(1, 2, 3, 4, 5) 
val rdd = sc.parallelize(data) 


或 者 从 一 个 List 对 象 生成 RDD: 


val data - List(1, 2, 3, 4, 5) 

val rdd = sc.parallelize(data) 

parallelize 还 可 以 指定 第 二 个 可 选 参数 : RDD 的 分 区 [partition ， 过 去 也 称 为 切片 (slice ) ] 
数量 。Spark 在 运行 时 ， 一 般 RDD 操 作 会 为 每 个 IDD 分 区 运行 一 个 Job。 关 于 Job ， 最 简单 的 理解 
可 以 是 它 对 应 一 个 Java 线 程 。 可 以 根据 集群 的 情况 指定 初始 分 区 的 数量 ， 如 果 不 指定 ， 系 统 也 会 
默认 设置 一 个 。 默 认 值 由 配置 项 spark.default.parallelism 决 定 ， 本 地 模式 下 默认 取 CPU 
的 核 数量 。 

此 外 ，sparkcontext 对 象 还 提供 了 range 方 法 ， 通 过 指定 长 整数 的 开始 值 、 结 束 值 以 及 步 
长 ， 生 成 一 定 范围 的 长 整 型 ， 最 终 调用 parallelize 生 成 RDD。 

值得 注意 的 是 ， 因 为 这 种 方式 的 数据 源 在 Driver 程 序 中 受到 Driver 所 在 节点 的 资源 限制 ， 不 
适合 处 理 特别 大 的 数据 , 尤其 是 接近 或 超过 本 机 资源 的 数据 , 所 以 更 多 适用 于 交互 式 环 境 下 的 程 
序 调 试 或 数据 量 较 小 的 数据 。 

2. 从 外 部 数据 集 生 成 RDD 

前 面 已 经 提供 了 从 Driver 数 据 集 生 成 RDD 的 方式 ， 但 受制 于 Driver 程 序 所 在 的 单 节点 的 资源 
能 力 ， 不 能 处 理 数据 特别 大 的 场景 ， 比 如 在 处 理 HDFS 文 件 时 ， 动 辑 100 TB 的 数据 ， 远 超过 本 地 
的 资源 能 力 ， 而 且 数 据 的 移动 成 本 也 相当 高 。 

所 以 ， 对 于 这 种 外 部 数据 集 ，Spark 提 供 了 专门 的 方式 生成 RDD ， 即 从 分 布 式 的 数据 直接 生 
成 分 布 式 的 RDD ， 这 使 得 RDD 从 生成 到 计算 的 全 过 程 都 是 分 布 式 的 ， 不 会 形成 资源 瓶颈 。 

Spark 可 以 从 任何 Hadoop 支 持 的 存储 类 型 的 数据 源 生 成 RDD， 包 括 本 地 文件 系统 、HDFS、 
Cassandra, HBase, Amazon S3 等 ，Spa 水 支持 文本 文件 、Sequence 文 件 ， 以 及 其 他 任何 Hadoop 
InputFormat 格 式 的 数据 。 


文本 文件 可 以 使 用 sparkcontext 对 象 的 textFile 方 法 生成 ， 其 参数 是 文件 的 地 址 ， 可 以 
是 本 地 文件 系统 的 完整 路 径 , 也 可 以 是 以 hdfs://、s3n:// 等 开头 的 URL, 比如 前 面 提 到 的 WordCount 
示例 从 本 地 文件 生成 RDD: 


Seq(1, 2, 3, 4, 5) 
Sc.parallelize(data) 
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Scala» val textFile - sc.textFile("README.md") 
textFile: org.apache.spark.rdd.RDD[String] - MapPartitionsRDD[1] at textFile at 
«console»:21 


此 外 ， 使 用 文本 文件 时 ， 还 有 几 点 注意 事项 ， 具 体 如 下 。 


口 如 果 文 件 是 通过 本 地 文件 系统 路 径 指定 的 ， 必 须 确 保 所 有 计算 节点 都 可 以 通过 这 个 路 径 
访问 到 该 文件 ， 所 以 要 么 每 个 节点 的 该 路 径 下 都 有 一 份 副 本 ， 或 者 使 用 网 络 文件 系统 。 
口 Spark 所 有 基于 文件 的 生成 RDD 的 方法 (除了 textFile ， 还 有 haqoopFile 、 
sequenceFile, objectFile, binaryFiles 等 )， 都 支持 目录 、 压 缩 文件 和 通配符 。 
比如 ， 我 们 可 以 这 样 调用 : 

textFile("/my/directory") 


textFile("/my/directory/*.txt") 
textFile("/my/directory/*.gz") 


O 像 earallelize 一 样 ，textFile 也 支持 指定 分 区 数量 。 默 认 情 况 下 ，Spark 为 每 个 数据 
块 (比如 HDFS 的 默认 数据 块 大 小 是 128 MB, ， 早 期 使 用 过 64 MB ) 创建 一 个 分 区 ,我们 可 
以 指定 更 多 的 分 区 数量 ， 但 不 能 减少 。 
除了 最 基本 的 文本 文件 外 ，Spark 还 支持 其 他 类 型 的 文件 。 

口 wholeTextFiles 可 以 一 次 读 取 一 个 目录 下 的 许多 小 文件 ， 并 返回 < 文件 名 、 内 容 > 二 元 组 ， 

而 不 是 像 textFi1e 那 样 每 条 记录 是 一 行文 本 ,不 保留 文件 信息 。 

O 对 于 SequenceFile 格 式 的 文件 ( Hadoop 针 对 大 数据 计算 使 用 的 一 种 文件 格式 )， 可 以 使 用 
SparkContext 对 象 的 sequenceFile[K, V] 方 法 , 其 中 Kk 和 Vv 分 别 代 表 文 件 中 key 和 value 
的 类 型 ， 这 些 类 型 必须 继承 自 Hadoop 的 writable 接 口 ， 比 如 Intwritable 和 Text。 不 
过 Spark 提 供 了 便利 ， 可 以 直接 使 用 Scala 基 本 类 型 ， 比 如 Int 和 String， 它 们 已 经 实现 了 
Writable 接 口 ， 所 以 我 们 可 以 直接 这 样 使 用 : sequenceFile[Int, String]o 

O 对 于 其 他 Hadoop InputFormat， 我 们 可 以 使 用 sparkcontext 对 象 的 hadoopRDD 方 法 ， 其 
定义 如 下 : 


def 


hadoopRDD[K, V] (conf: JobConf, inputFormatClass: Class[ <: 

InputFormat[K, V]], keyClass: Class[K], valueClass: Class[V], 

minPartitions: Int - defaultMinPartitions): RDD[(K, V)] 
其 中 的 参数 跟 Hadoop 任 务 一 样 。 对 于 新 的 Hadoop MapReduce API ( org . apache. hadoop. 
mapreduce ) 请 青 使 用 newAPIHadoopRDD 方 法 。 SparkCont ext 中 还 不 有 一 个 hadoopFi le 方 
法 ， 是 对 hadoopRDD 的 封装 ， 使 用 默认 Hadoop 配 置 。 同 样 ，newAPIHadoopFile 是 对 
newA PIHadoopRDD 的 封装 o 


O 对 于 HBase 文 件 ， 因 为 HBase 使 用 HDFS 作 为 存储 ， 也 是 一 种 Hadoop InputFormat， 所 以 也 
是 用 nadoopRDD 或 newAPIHadoopRDD 来 读 取 数 据 的 ， 比 如 : 
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val conf - HBaseConfiguration.create() 
conf.set(TableInputFormat.INPUT TABLE, "MyTable") 
val hBaseRDD - sc.newAPIHadoopRDD(conf 
, classOf[TableInputFormat] 
, CclassOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable] 
, classOf[org.apache.hadoop.hbase.client.Result] 


) 


注意 上 面 的 代码 不 能 直接 运行 , 需要 添加 HBase 相 关 的 JAR 包 到 classpath 中 并 在 代码 中 引用 g | 
相关 的 包 。 


此 外 ，Spark 还 提供 了 RDD 对 象 的 序列 化 与 反 序列 化 功能 。 通 过 RDD. saveaAsobjectFile 保 
存 的 RDD 序 列 化 对 象 ， 可 以 使 用 sparkcontext .objectFile 重 新 加 载 进来 ， 这 虽然 不 如 Avro 
等 其 他 序列 化 方式 效率 高 ， 但 却 非常 简单 好 用 。 

SparkContext 对 象 还 提供 了 binaryFiles 方 法 ， 以 二 进 制 的 形式 直接 读 取 Hadoop 
MapReduce 计 算 的 结果 文件 ， 比 如 我 们 有 这 些 输出 文件 : 


hdfs://a-hdfs-path/part-00000 
hdfs://a-hdfs-path/part-00001 


nore Ma Horo hatte ote nn 

通过 这 样 的 调用 : 

val rdd = sparkContext.dataStreamFiles("hdfs://a-hdfs-path") 
生成 的 RDD 内 容 是 : 


(a-hdfs-path/part-00000， 文 件 内 容 ) 
(a-hdfs-path/part-00001， 文 件 内 容 ) 


(a-hdfs-path/part-nnnnn， 文 件 内 容 ) 


所 有 RDD 创 建 方法 ， 都 在 sparkcontext 对 象 中 提供 ， 完 整 的 信息 可 以 参考 官方 API 文 档 。 
值得 注意 的 是 ， 从 外 部 创建 RDD 不 会 马上 读 进 内 存 中 计算 , 而 只 是 保存 读 取 它们 的 信息 , 在 计算 
时 再 根据 需求 就 近 读 取 ， 所 以 基本 不 用 担心 单 点 资源 的 瓶颈 问题 。 


2.8.8 RDD 操作 


RDD 是 Spark 的 核心 抽象 ， 所 有 计算 都 围绕 RDD 进 行 ， 生 成 RDD 只 是 万 里 长 征 的 第 一 步 ， 然 
后 我 们 可 以 对 RDD 进 行 各 种 操作 ， 这 些 操作 可 以 分 为 两 类 。 
Q Transformation 〈 转 换 )。 一 个 RDD 经 过 计算 后 生成 新 的 RDD ， 比 如 WordCount 示 例 中 的 
flatMap、map 和 reduceByKey。 
O Action (动作 )。 返回 结果 到 Driver 程 序 中 , 这 一 般 意 味 着 RDD 计 算 的 结束 , 比如 WordCount 
中 的 最 后 一 步 col lect 操 作 。 
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Spark 下 的 所 有 Transformation 都 是 一 种 lazy 懒 洋洋 ) 模式 ， 就 是 说 计算 不 会 马上 进行 ， 而 
是 先 记 录 下 计算 方式 ， 仅 在 有 Action 被 触发 需要 向 Driver 程 序 返 回 结果 时 才 会 启动 真正 的 计算 。 
这 种 设计 的 好 处 是 更 高 效 ， 不 需要 将 每 次 Transformation 的 非常 大 的 结果 返回 给 Driver 程 序 ， 只 需 
要 将 最 终 的 一 般 会 小 很 多 的 结果 返回 给 Driver 程 序 ， 而 且 过 程 中 的 数据 也 不 需要 有 完整 的 快照 保 
存 ， 可 以 根据 集群 的 资源 使 用 情况 动态 调配 。 

默认 情况 下 , RDD 的 Transformation 实 际 计 算 只 在 有 Action 时 才 进 行 , 而 且 RDD 的 结果 都 是 临 
时 的 ， 被 新 的 Transformation 或 Action 使 用 过 后 即 丢 弃 。 但 我 们 可 以 对 RDD 进 行 持久 化 或 cache 操 
作 ， 这 也 会 触发 Transformation 进 行 真 正 的 计算 ， 而 且 Spark 会 将 RDD 的 结果 保持 在 集群 的 内 存 或 
磁盘 中 ， 甚 至 复制 多 份 ， 这 样 再 次 访问 时 不 需要 重复 计算 ， 就 可 以 获取 更 快 的 响应 速度 。 


1. 以 WordCount 为 例 理 解 执行 过 程 
以 下 面 的 WordCount 代 码 为 例 : 


val textFile = sc.textFile("README.md") 

val words = textFile.flatMap(line -» line.split(" ")) 
val wordPairs - words.map(word -» (word, 1)) 

val wordCounts = wordPairs.reduceByKey((a, b) -» a + b) 
wordCounts.collect() 


第 一 行 代码 从 本 地 文本 文件 生成 一 个 RDD, 每 行 一 条 记录 , 但 并 没有 执行 读 文 件 操 作 。 第 二 
行 代码 将 每 行 数据 按 空格 拆 分 成 单词 ， 也 没有 马上 执行 。 第 三 行 代码 将 各 个 单词 加 上 计数 值 1， 
没有 马上 执行 。 第 四 行 代码 对 所 有 相同 的 单词 进行 聚合 相 加 求 各 单词 的 总 数 , 依然 没有 马上 执行 。 
最 后 一 行 代码 中 的 collect 是 Action ， 需 要 返回 结果 到 Driver 程 序 ， 这 才 触 发 RDD 开 始 实际 的 计 
算 。 首先 ， 会 触发 wordcounts 开 始 计算 ; 而 wordCcounts 依 赖 wordPairs wordPairs 依 赖 
words, words 依 赖 textFile。 这 其 实 是 一 条 RDD 依 赖 链条 .: textFile 一 words — wordPairs 
一 wordcounts， 然 后 从 链条 头 部 textFile 开 始 依次 计算 ， 最 终 将 结果 返回 给 Driver 程 序 。 


当然 ， 因 为 持续 化 操作 也 会 触发 RDD 的 计算 ， 所 以 下 面 的 调用 也 会 真正 的 计算 : 


wordPairs.persist() 


注意 cache 方法 等 同 于 persist， 但 persist 的 表达 更 广泛 ， 可 以 通过 参数 设置 持久 化 到 内 
存 中 或 磁盘 中 。 但 无 论 哪 种 都 是 持久 化 ， 而 cache 只 局 限于 持久 化 到 内 存 中 。 


在 交互 式 编程 环境 中 ， 输 入 wordcount 人 代码，Spark 程 序 就 会 自动 完成 编译 、 打 包 、 上 传 、 
执行 的 过 程 ， 并 输出 结果 ， 这 就 是 交互 式 编程 的 便利 之 处 。 此 外 ,在 交互 式 编程 环境 下 ， 系 统 自 
动 创建 了 一 个 Sparkcontext 实 体 ， 名 称 是 sc， 我 们 可 以 直接 使 用 它 。 

下 面 我 们 从 RDD 操 作 层 面 来 逐 行 解 释 上 面 的 代码 : 


val textFile = sc.textFile("README.md") 
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SparkContext 对 象 的 textFile 国 数 接收 一 个 文本 文件 作为 输入 ， 创 建 一 个 新 的 RDD， 并 


返回 给 只 读 变 量 textFile: 


textFile.flatMap(line => line.split(" ")) 


flatMapPAZiUÉ—  RDD/E&HS RZ, 接受 一 个 函数 作为 输入 , 对 当前 RDD 的 所 有 成 员 调 用 输 
入 的 函数 ， 并 返回 一 个 新 的 RDD。1line => line.split(" ") 是 Scala 函 数 式 编程 的 简写 形式 ， 
表示 函数 接收 一 个 名 为 1ine 的 参数 ， 函 数 体 对 1ine 进 行 split 操 作 ，split 的 结果 就 是 返回 值 。 
flatMap 与 map 的 区 别 是 : map 输 入 的 是 一 个 RDD 成 员 ， 输 出 的 也 是 一 个 RDD 成 员 ，RDD 总 成 员 
数 不 变 ; 而 flatMap 对 每 个 输入 的 RDD 成 员 , 输出 的 是 一 个 集合 ,集合 里 面 的 成 员 会 被 展开 ,这 
样 输入 一 个 输出 多 个 。 当 然 ， 也 可 以 输出 空 集合 。 比 如 ， 当 前 行 是 “# Apache Spark”， 按 空格 拆 
分 后 , 返回 一 个 数组 , 包含 3 个 成 员 :“# “Apache” 和 “Spark”, 最 终 数组 的 3 个 成 员 会 成 为 RDD 
的 直接 成 员 。 

map 国 数 接收 一 个 函数 作为 参数 ， 它 会 遍历 RDD 中 的 所 有 成 员 ， 并 将 成 员 作为 参数 来 调用 ， 
输出 的 结果 为 新 的 RDD 的 成 员 : 


map (word => (word, 1)) 


下 面 的 代码 按 key 聚 合 ， 数 量 相 加 


reduceByKey((a, b) => a + b) 


collect 函 数 将 RDD 分 布 在 各 节点 的 数据 拉 回 到 Driver 程 序 本 地 , 交互 式 shell 会 自动 显示 内 容 。 


wordCounts.collect() 
Spark 有 最 核心 的 抽象 是 弹性 分 布 式 数据 集 ( 以 下 简称 RDD )，RDD 可 以 通过 HDFS 文 件 创建 ， 
或 者 由 其 他 RDD 转 换 而 来 。 我 们 先 使 用 Spark 目 录 下 的 README 来 创建 一 个 新 RDD: 


Scala» val textFile = sc.textFile("README.md") 
textFile: org.apache.spark.rdd.RDD[String] - MapPartitionsRDD[1] at textFile at 
«console»:21 


2. 传递 函数 参数 

Spark 严 重 依赖 传递 函数 类 型 的 参数 ， 比 如 常见 的 RDD Transformation 函数 map 和 requce, 接 
收 的 参数 都 是 一 个 函数 类 型 。 

以 Scala 语 言 为 例 ， 有 两 种 建议 的 方法 ， 一 种 是 匿名 函数 ， 适 用 于 小 片段 的 代码 ， 前 面 
WordCount 示 例 中 的 函数 参数 都 是 这 种 类 型 。 

另 一 种 建议 的 方法 是 传递 object 对 象 中 的 静态 方法 (Scala object 对 象 本 身 就 是 单 实例 的 ， 
它 的 方法 都 是 静态 方法 )， 比 如 WordCount 中 的 flatMap 调 用 也 可 以 这 样 调用 : 


object MyFunctions { 
def lineSplit(line: String): Array[String] = ( 
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line.split(" ") 
j 


} 
val words = textFile.flatMap(MyFunctions.lineSplit) 


它 等 价 于 之 前 的 匿名 函数 形式 : 


val words = textFile.flatMap(line => line.split(" ")) 


这 是 完整 的 WordCount 示 例 : 


object MyFunctions { 
def lineSplit(line: String): Array[String] = { 
line.split(" ") 
j 


} 
val textFile = sc.textFile("README.md") 


val words = textFile.flatMap(MyFunctions.lineSplit) 

val wordPairs - words.map(word -» (word, 1)) 

val wordCounts = wordPairs.reduceByKey((a, b) => a + b) 
wordCounts.collect() 


当然 ， 还 有 另外 的 方法 〈 虽然 不 建议 )， 那 就 是 传人 普通 类 的 方法 ， 但 必须 将 方法 所 属 的 实 
例 一 起 传 进去 , 而 不 仅仅 是 方法 本 身 。 因 为 方法 的 运行 依赖 实例 , 方法 的 第 一 个 隐 含 的 参数 this 
就 指向 实例 。 

下 面 还 是 以 WordCount 为 例 ， 这 次 我 们 来 改写 map 调 用 。 先 定义 map 的 参数 函数 : 


import org.apache.spark.rdd.RDD 
class MyClass extends java.io.Serializable ( 
def wordMap(word: String): (String, Int) - ( (word, 1) ) 


} 

这 里 需要 注意 到 ，Myclass 继 承 自 java.io.Serializable， 这 让 Myclass 具 备 了 序列 化 
能 力 ， 为 什么 必须 具备 序列 化 能 力 呢 ? 这 得 从 RDD 说 起 。 前 面 提 到 过 ，RDD 是 弹性 分 布 式 数据 
集 ， 实 际 计算 是 分 布 在 各 个 节点 上 的 ， 而 RDD 的 计算 过 程 都 是 在 Driver 程 序 中 定义 的 ， 所 以 代码 
从 Driver 分 发 至 各 计算 节点 有 一 个 过 程 ， 可 以 认为 分 为 4 步 。 

(1) 在 Driver 节点 上 序列 化 代码 。 

(2) 传送 至 各 计算 节点 。 

(3) 在 计算 节点 上 反 序 列 化 。 

(4) 执行 。 

前 面 建 议 的 两 种 方法 (匿名 函数 和 object 对 象 方法 ) 都 具备 序列 化 能 力 ， 而 类 默认 是 没有 
所 以 一 个 解决 方法 是 让 它 添 加 一 个 父 类 java.io.Serializable。 

然后 可 以 这 样 来 调用 : 


val myclass = new MyClass() 
val wordPairs = words.map(myclass.wordMap) 


的 


> 
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这 等 同 于 : 

val wordPairs = words.map(word => (word, 1)) 

知道 了 原理 ， 就 可 以 找 出 让 Myclass 不 从 java.io.Serializable 继 承 也 可 行 的 办 法 ,， 那 
就 是 使 用 类 中 的 fonction 蔡 代 method， 因 为 function 支 持 序列 化 : 


class MyClassí 
val wordMap - (word: String) -» (word, 1) 


) 
调用 方法 不 变 : 


val myclass = new MyClass() 
val wordPairs - words.map(myclass.wordMap) 


3. 理解 变量 的 作用 域 

Spatk 的 核心 是 RDD, 而 RDD 是 分 布 式 计算 的 。 虽然 Spark 的 设计 可 以 让 我 们 使 用 RDD 时 跟 使 
用 本 地 数据 集 非常 类 似 , 但 仔细 研究 还 是 会 发 现 一 些 不 同 之 处 ,就 像 上 面 的 案例 那样 ,我 们 使 用 
普通 类 的 方法 给 RDD 函 数 传 递 参 数 时 ， 需 要 做 一 下 特殊 人 处理 。 

我 们 还 是 要 稍微 理解 一 点 RDD 的 运作 机 制 , 以 避免 代码 的 运行 结果 与 期 望 的 不 太一 致 。 以 下 
面 的 代码 为 例 : 


var counter = 0 

val data = Seq(1, 2, 3) 
data.foreach(x -» counter += x) 
println("Counter value: " + counter) 


计数 器 countezr 的 初始 值 为 0，foreach 遍 历 aata 中 的 所 有 元 素 ， 加 到 计数 器 上 ， 最 终 可 以 
看 到 如 下 运行 结果 : 


Counter value: 6 
如 果 我 们 将 dat a 转换 成 RDD， 再 来 重新 计算 计数 器 : 


var counter = 0 

val data = Seg(l, 2, 3) 

var rdd - sc.parallelize(data) 
rdd.foreach(x -» counter += x) 
println("Counter value: " + counter) 


会 发 现 结果 与 对 data 直 接 foreach 操 作 不 太一 样 : 
Counter value: 0 
这 是 为 什么 呢 ? 其 实 很 简单 ， 所 有 对 RDD 的 函数 调用 ， 虽 然 代 码 上 看 起 来 是 在 Driver 程 序 中 
运行 的 ， 但 实际 计算 都 不 在 本 地 。 每 个 ADD 操作 都 会 被 转换 成 Job 分 发 至 集群 的 执行 器 进程 上 运 
行 ， 即 便 是 单机 本 地 运行 模式 ， 也 是 在 单独 的 执行 器 进程 上 运行 ， 与 Driver 程 序 隶属 于 不 同 的 进 
程 。 每 个 Job 的 执行 ， 都 会 经 历 序 列 化 、 网 络 传输 、 反 序列 化 和 运行 的 过 程 。 
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在 上 面 的 示例 中 ，foreach 中 的 匿名 函数 x => counter += x 首先 被 序列 化 ， 然 后 传送 至 
计算 节点 ， 反 序列 化 之 后 再 运行 ， 因 为 foreach 是 Action 操 作 ， 结 果 会 返回 到 Driver 进 程 中 。 


在 序列 化 时 ，Spark 会 将 Job 运 行 所 依赖 的 变量 、 方 法 ( 称 为 闭 包 ) 全 部 打包 在 一 起 序列 化 ， 
相当 于 它们 的 一 份 副本 。 所 以 ， 在 上 面 的 示例 中 ，countez 会 被 一 起 序列 化 ， 然 后 传输 于 计算 节 
点 ， 反 序列 化 生成 一 个 新 的 countet 变 量 ， 已 经 不 是 Driver 程 序 中 的 变量 了 。 在 执行 过 程 中 ， 只 
是 计算 节点 上 的 counter 会 自 增 , 而 Driver 程 序 中 的 counter 则 不 会 发 生变 化 。 执 行 完成 之 后 ， 
结果 返回 到 Driver 程 序 中 (示例 中 的 foreach 没 有 返回 值 )， 而 Driver 中 的 counter 依 然 还 是 当初 
的 那个 Driver， 值 为 0。 


理解 了 RDD 的 过 程 ， 我 相信 读者 就 不 难 理解 另外 一 个 Spark 编 程 时 RDD 操 作 的 禁忌 ， 那 就 是 
RDD 操 作 不 能 能 套 调用 ， 即 在 RDD 操 作 传 人 的 函数 参数 的 函数 体 中 ， 不 可 以 出 现 RDD 调 用 。 

4. 理解 以 键 值 对 为 参数 的 操作 

大 部 分 Spark 计 算 接 收 包含 任意 对 象 的 RDD 作 为 参数 ,少数 计算 要 求 RDD 的 元 素 必须 是 <key， 
value> 对 , 最 常用 的 是 分 布 式 的 shuffle 操 作 ， 比 如 按 元 素 的 key 来 分 组 或 聚合 。 在 Scala 中 ， 这些 
操作 Tuple 元 组 类 型 ，<key，value> 运 算 PairRDDFunction 类 ， 自 动 处 理 RDD 元 组 。 


比如 ，WordCount 中 的 redquceByKey。 


如 果 <key，value> 中 的 key 是 用 户 自 定义 类 型 注意 必须 实现 了 方法 equals O 以 及 
hashCode () 。 


5. Transformation 操 作 


Transformation 操 作 是 RDD 两 类 操作 之 一 ， 这 些 操作 都 接收 一 个 RDD 作 为 输入 ， 返 回 一 个 
新 的 RDD。 除 了 以 上 示例 给 出 来 的 操作 ， 其 他 常用 的 操作 说 明 如 表 2-2 所 示 ， 详 情 请 参考 API 
文档 。 


表 2-2 ”其 他 常用 操作 
Transformation 操 作 说 8H 

map (func) 对 源 RDD 中 的 每 个 元 素 调用 func， 生 成 新 的 元 素 ， 这 些 新 元 素 构成 新 
的 RDD 并 返回 

flatMap (func) 与 map 类 似 ， 但 每 个 输入 的 RDD 成 员 可 以 产生 0 或 多 个 输出 成 员 (所 以 
func 的 返回 值 是 seq 类 型 ) 

filter (func) 对 RDD 进 行 过 滤 ， 对 原 RDD 中 的 每 个 元 素 调用 func， 如 果 返 回 true， 
则 保留 该 元 素 ， 由 这 些 元 素 构成 新 的 RDD 并 返 区 

mapPartitions (func) j map% {t}, 但 map 中 的 func 作 用 的 是 RDD 中 的 每 个 元 素 ， 而 
mapPartitions 中 的 func 作 用 的 对 象 是 RDD 的 一 整个 分 区 。 所 以 func 
的 类 型 是 Tterator<T> => Iterator<U>， 其 中 T 是 输入 RDD 元 素 的 
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CER) 
Transformation t&1E 说 — RB 

mapPartitionsWithIndex (func) 与 mapPartitions 类 似 ， 但 输入 会 多 提供 一 个 整数 表示 分 区 的 编号 ， 
所 以 func 的 类 型 是 (Int，Iterator<T>) => Iterator<U>, 多 了 一 个 
Int 

sample (withReplacement, 对 RDD 进 行 抽样 ， 其 中 参数 withReplacement 为 true 时 表示 抽样 之 后 

fraction,” geed) 还 放 回 ， 可 以 被 多 次 抽样 ，false 表 示 不 放 回 ; fraction 为 浮 点 数 ， 

表示 抽样 比例 ，seec 为 随机 数 种 子 ， 比 如 当前 时 间 惟 

union (otherDataset) 合并 两 个 RDD， 不 去 重 ， 要求 两 个 RDD 中 的 元 素 类 型 一 致 

distinct ([numTasks])) 对 原 RDD 进 行 去 重 操作 ， 返 回 的 RDD 中 没有 重复 的 成 员 

groupByKey ( [numTasks]) 对 <key, value> 结 构 的 RDD 进 行 类 似 RMDB 的 group b KAE, H 


有 相同 key 的 RDD 成 员 的 value 会 被 聚合 在 一 起 ， 返 回 的 RDD 的 结构 是 

(key, Iterable«value») 

注意 : groupByKey 除 了 聚合 ， 不 对 value 进 行 任何 操作 ， 除 非 你 调用 
完 groupByKey 之 后 没有 进一步 的 操作 ， 直 接 调用 Action 操 作 , 
否则 建议 使 用 下 面 的 reduceByKey 或 aggregateByKey 以 获取 
更 高 的 性 能 

注意 : groupByKey 涉 及 shuffle 操 作 ， 默 认输 出 的 并 发 数量 取决 于 输入 
RDD 的 分 区 数量 ， 也 可 以 通过 可 选 参数 [numrasks] 手 工 指定 


reduceByKey (func, [numTasks]) 对 <key，value> 结 构 的 RDD 进 行 聚合 ， 对 具有 相同 key 的 value 调 用 
func 来 进行 reduce 操 作 ，func 的 类 型 必须 是 (Vv,，V) => v 

sortByKey ([ascending], [numTasks]) 对 <key，value> 结 构 的 RDD 进 行 升序 或 降序 排列 

join(otherDataset, [numTasks]) 对 (K，V) 和 (K，W) 进行 join 操 作 ， 返 回 (Kk，(V,， w)) 


外 连接 函数 为 leftouterJoin、rightouterJoin 和 fullouterJoin 


6. Action 操 作 
Action 操 作 是 另外 一 类 操作 ，Transformation 操 作 结 束 之 后 ， 就 该 Action 操 作 上 场 了 ， 输 出 不 


是 RDD ， 也 就 意味 着 输出 不 是 分 布 式 了 ， 而 是 回 送 至 Driver 程 序 。 
表 2-3 是 常用 的 Action 操 作 列 表 ， 详 情 请 参考 API 文 档 。 


表 2-3 ”常用 的 Action 操 作 列 表 


Action 操 作 说 明 
reduce (func) 对 RDD 成 员 使 用 所 npc 进行 reauce 操 作 , func 接 受 两 个 参数 ,合并 之 后 只 返回 一 个 值 ,reduce 
操作 的 返回 结果 只 有 一 个 值 。 需 要 注意 的 是 ，func 会 并 发 执行 
collect() 将 RDD 读 取 至 Driver 程 序 ， 类 型 是 Array， 一 般 要 求 RDD 不 能 太 大 
count () 返回 RDD 的 成 员 数 量 
first() 返回 RDD 的 第 一 个 成 员 ， 等 价 于 take (1) 


take (n) 可 RDD 前 n 个 成 员 


s 
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Action 操 作 说 8H 
saveAsTextFile(path) 将 RDD 转 换 为 文本 内 容 并 保存 至 路 径 path 下 ， 可 能 有 多 个 文件 。 路 径 path 可 以 是 本 
地 路 径 或 者 HDFS 地 址 ， 转 换 方法 是 对 RDD 成 员 调用 tostring 函 数 


saveAsSequenceFile(path) 与 saveAsTextFile 类 似 ,但 以 SequenceFile 格 式 保存 ,成 员 类 型 必须 实现 writable 


( 仅 Java 和 Scala ) 接口 或 者 可 以 被 隐 式 转换 为 writable 类 型 ( 比如 基本 Scala 类 型 Int 、string 等 ) 
countByKey () 仅 适 用 于 (Kk，V) 类型， 对 key 计数 ， 返 回 (Kk，Int) 
foreach(func) 对 RDD 中 的 每 个 成 员 执 行 func， 没 有 返回 值 ， 常 用 于 更 新 计数 器 或 输出 数据 至 外 部 


存储 系统 。 这 里 需要 注意 变量 的 作用 域 


2.3.4 使 用 其 他 语言 开发 Spark 程序 


前 面 的 例子 都 是 基于 Scala 语 言 的 ，Spark 也 支持 Python 、Java 和 R。 官 方 文档 的 示例 程序 也 提 
供 Scala、Python 和 Java 版 本 ， 而 本 书 的 案例 主要 使 用 Scala。 


2.4 打包 和 提交 


bin/spark-shell 只 适合 调试 。 正 式 环境 下 的 Spark 程 序 在 调试 好 之 后 ， 需 要 编译 、 链 接 、 打 包 
成 JAR 包 ， 然 后 提交 至 集群 运行 。 


2.4... 编译、 链接、 打包 
以 WordCount 为 例 ， 首 先 将 Spark 程 序 代 码 保存 到 文件 WordCount.scala 中 去 : 


/* WordCount.scala */ 

import org.apache.spark.SparkContext 

import org.apache.spark.SparkContext. 

import org.apache.spark.SparkConf 

object WordCount ( 

def main(args: Array[String]) ( 

val conf = new SparkConf().setAppName ("WordCount") 
val sc - new SparkContext (conf) 
val textFile - sc.textFile("README.md") 
val words - textFile.flatMap(line -» line.split(" ")) 
val wordPairs - words.map(word -» (word, 1)) 
val wordCounts = wordPairs.reduceByKey((a, b) -» a + b) 
printlin("wordCounts: ") 
wordCounts.collect().foreach(println) 


} 


用 Scala 写 的 Spark 程 序 本 身 也 是 Scala 程 序 ， 所 以 入 口 还 是 object 中 的 main 函 数 ， 建 议 文件 
名 与 object 同 名 。 
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编译 、 链 接 、 打 包 的 工作 由 专用 的 构建 工具 来 完成 ， 一 般 使 用 sbt (simple build tool) 或 
Maven。 官 方 推荐 用 sbt， 因 为 它 更 简单 。 

1. sbt 安 装 

sbt 需 要 手动 安装 ， 安 装 之 前 检查 一 下 依赖 项 。 

口 sbt 依 赖 Java， 建 议 使 用 与 Spark 运 行 环境 相同 的 JDK。 

O sbt 的 安装 和 使 用 都 需要 使 用 外 网 ， 以 便 可 以 下 载 依 赖 的 JAR 包 。 如 果 没 有 外 网 ， 可 以 配 
置 一 下 代理 。 在 Linux 下 配置 代理 ， 只 需 设 置 一 下 环境 变量 http_proxy 指 向 代理 服务 央 
即 可 。 

先 下 载 TGZ 压 缩 包 ， 

~$ wget 'https://dl.bintray.com/sbt/native-packages/sbt/0.13.9/sbt-0.13.9.tgz' 

解压 后 进入 目录 ， 然 后 执行 .bin/sbt， 第 一 次 执行 时 会 从 网 上 下 载 依赖 的 JAR 包 ， 并 保存 到 
~/.sbt: 


^5 tar xf sbt-0.13.9.tgz 
~$ cd sbt/ 
~/sbt$ ./bin/sbt 


为 了 使 用 方便 ， 可 以 加 入 到 PATH 路 径 中 去 : 


-/sbt$ mv bin/ conf/ -/ 
~/sbt$ export PATH-"$SPATH:S$HOME/bin" 


2. 编写 sbt 配 置 文件 
一 个 典型 的 Spark 程 序 的 sbt 配 置 文件 如 下 ， 这 里 将 其 命名 为 wordCount.sbt: 


name := "WordCount" 

version se "1.0" 

ScalaVersion :- "2.10.4" 

libraryDependencies += "org.apache.spark" $$ "spark-core" $ "1.4.1" 


wordCount.sbt 本 身 也 是 Scala 代 人 码 ， 如 果 使 用 了 其 他 组 件 , 可 以 在 libraryDependencies 中 
继续 添加 。 
为 了 让 sbt 正 常 工作 ，sbt 文 件 和 程序 源码 需要 满足 一 定 的 目录 结构 ， 应 该 是 这 个 样子 : 


$ find. 


UP i-e 

./src/main 

./Src/main/scala 
./src/main/scala/WoraàCount.scala 
./wordCount.sbt 
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3. 编译 、 链 接 、 打 包 
相关 命令 如 下 : 
$ bin/sbt package 


[info] Packaging /data/wordCount/target/scala-2.10/wordcount 2.10-1.0.jar ... 
[info] Done packaging. 


[success] Total time: 37 s, completed Oct 11, 2015 11:33:13 AM 
初次 执行 也 比较 慢 ， 因 为 需要 下 载 依 赖 的 Spark 相 关 的 JAR 包 。 


Spark 程 序 除了 依赖 Sparkk， 还 依赖 其 他 项 目 。 此 时 需要 创建 一 个 assembly JAR 包 ， 其 中 包含 
所 有 递归 依赖 的 JAR 包 ， 这 可 以 借助 sbt assembly 插 件 来 实现 。 


24.2 ”提交 


打包 之 后 ， 就 可 以 提交 至 集群 上 运行 了 ， 提 交 任 务 的 基本 形式 如 下 : 


./bin/spark-submit \ 
--class <main-class> 
--master «master-url» \ 
--deploy-mode «deploy-mode» \ 
--conf «key»-«value» \ 
«application-jar» \ 
[application-arguments] 


比如 ，local 模 式 下 自 带 的 计算 Pi 的 示例 程序 这 样 提 交 : 


$ ./bin/spark-submit \ 

- --class org.apache.spark.examples.SparkPi \ 
> --master local[2] \ 

> lib/spark-examples-1.4.1-hadoop2.6.0.jar \ 

-» 10 


其 中 --class 人 参数 指定 包 中 的 object 对 象 。- -master 人 参数 指定 Spark 集 群 地 址 ， 它 可 以 是 下 面 
的 任何 一 种 。 
O Local [N] 。 表 示 本 地 模式 。 


D spark://host :port。 表 示 Standalone 模 式 。 
ü yarn; 


D mesos://host:port,; 


--dqeploy-mode 选 项 用 于 指定 运行 模式 ， 可 选 的 值 为 client 或 cluster， 分 别 表 示 Driver 
程序 是 运行 在 本 地 还 是 运行 在 集群 上 ，client 模 式 仅 适用 于 测试 时 的 交互 式 运 行 ， 正 式 环境 建议 
都 使 用 cluster 模 式 。 


spark-supbmit 提 交 程 序 时 ， 会 读 取 配置 文件 conf/spark-defaults.conf 作 为 默认 配置 ， 合 令 行 
选项 中 的 参数 优先 级 高 于 配置 文件 ， 程 序 中 的 sparkconf 对 象 的 设置 优先 级 最 高 。 
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此 外 , --jars 选 项 可 以 用 于 指定 额外 的 依赖 包 , 集群 上 的 所 有 节点 都 会 访问 这 些 文件 。 URL 
规则 有 3 类 ， 具 体 如 下 所 示 。 
口 以 file:/ 开 头 的 本 地 文件 ， 其 他 节点 会 通过 Spark 程 序 启 动 的 http 服 务 来 下 载 。 
O hdfs:, 、http: 、https: 、ftp ， 节 点 直接 访问 这 些 服 务 。 
O 以 local:/ 开 头 的 文件 , 表示 文件 在 本 地 , 各 节点 直接 在 本 地 的 该 路 径 下 访问 , 没有 网 络 IO ， 
可 以 提前 手工 传输 到 所 有 节点 ， 或 者 通过 网 络 文件 系统 ， 比 如 NFS 。 


--help 选 项 用 于 查看 所 有 支持 的 选项 。 


Spark 工 作 机 制 


在 熟悉 了 Spark 的 基本 用 法 之 后 ， 本 章 将 带领 大 家 深入 了 解 Spark 的 工作 机 制 ， 主 要 包括 调度 
管理 、 内 存 管理 、 容 错 机 制 、 监 控 管 理 和 配置 管理 。 


3.4 调度 管理 


就 像 普 通 程序 在 运行 时 由 操作 系统 来 统一 调度 分 配 可 以 使 用 的 CPU 、 内 存 资源 一 样 ，Spark 
集群 上 的 程序 要 想 申 请 使 用 资源 ， 也 要 由 统一 的 系统 来 调度 分 配 ， 这 就 是 调度 管理 系统 。 

如 果 集 群 上 只 有 一 个 程序 在 运行 , 那么 也 没有 必要 进行 调度 了 ,如果 多 个 程序 在 运行 ， WU 
在 资源 竞争 的 问题 ， 所 以 调度 管理 最 主要 的 目的 是 资源 分 配 。 

Spark 集 群 上 的 资源 主要 是 指 CPU core 数 量 和 物理 内 存 。core 数 量 一 般 是 物理 CPU 核 的 数量 ， 
我 们 也 可 以 将 其 设置 为 CPU 核 数 量 的 2 倍 或 更 多 。 在 程序 运行 时 , 每 个 core 对 应 一 个 线程 。 物理 内 
存 即 所 有 机 器 节点 分 配给 Spark 集 群 的 内 存 总 量 ， 一 般 每 个 节点 最 多 会 将 80% 的 内 存 资源 分 配给 
Spark 集 群 使 用 。 

Spark 自 身 支 持 资源 调度 ，Standalone 模 式 下 由 Spark 集 群 中 的 Master 节 点 来 进行 资源 调度 。 此 
外 ，Spark 还 支持 与 其 他 调度 管理 系统 一 起 工作 ， 目 前 支持 Hadoop YARN 和 Mesos, 这 样 的 好 处 有 
两 个 : 一 是 外 部 调度 系统 可 能 支持 更 强大 、 灵 活 的 调度 策略 ; 二 是 当 Spark 与 其 他 分 布 式 系统 一 
起 部 署 时 ， 可 以 一 起 被 统筹 调度 ， 避 人 免 Spark 和 集群 整体 对 资源 的 否 噬 

Spark 调 度 按 场景 分 为 两 类 : 一 类 是 Spark 程 序 之 间 的 调度 ， 这 是 最 主要 的 调度 场景 ;另外 一 
类 是 Spark 程 序 内 部 的 调度 ， 下 面 会 详 述 。 


o 


3.1.1 集群 概述 及 名 词 解释 
为 了 更 好 地 理解 调度 ， 我 们 先 来 鸟 殉 一 下 集群 模式 下 的 Spark 程 序 运 行 (参见 图 3-1 )。 


pem: 


图 3-1 ”集群 模式 下 运行 的 Spark 程 序 
1. Driver 程 序 


在 集群 模式 下 ， 用 户 编 写 的 Spark 程 序 称 为 Driver 程 序 。 每 个 Driver 程 序 包含 一 个 代表 集群 环 
境 的 Sparkcontext 对 象 并 与 之 连接 ， 程 序 的 执行 从 Driver 程 序 开始 ， 中 间 过 程 会 调用 RDD 操 作 
(Transformation 或 Action ), 这 些 操作 通过 集群 资源 管理 器 来 调度 执行 ,一般 在 Worker 节 点 上 执行 ， 
所 有 操作 执行 结束 后 回 到 Driver 程 序 中 ， 在 Driver 程 序 中 结束 。 

2. SparkCcontext 对 象 

每 个 驱动 程序 里 都 有 一 个 SparkCcontext 对 象 ， 担 负 着 与 集群 沟通 的 职责 ， 大 概 过 程 如 下 。 


(1) SparkContextX] Zt fk zs SEA Fila (cluster manager， 视 部 署 模 式 不 同 而 不 同 )， 分 配 
CPU、 内 存 等 资源 。 

(2) 集群 管理 器 在 工作 节点 (Worker Node) 上 启动 一 个 执行 器 ( 专属 于 本 驱动 程序 )。 

(3) 程序 代码 会 被 分 发 到 相应 的 工作 节点 上 。 

(4) SparkCcontext 分 发 任务 ( Task) 至 各 执行 器 执行 。 

3. 集群 管理 器 

集群 管理 器 负责 集群 的 资源 调度 。 Spark 支 持 3 种 集群 部 署 方式 , 每 种 部 署 对 应 一 种 资源 管理 器 。 

口 Standalone 模 式 〈 资 源 管理 器 是 Master 节 点 ) 。 最 简单 的 一 种 集群 模式 ， 不 依赖 于 其 他 

系统 ， 调 度 策略 相对 单一 ， 只 支持 先进 先 出 (FIFO First-In-First-Out ) 模式 。 

口 Hadoop YARN (资源 管理 器 是 YARN 集 群 )。 它 主要 用 来 管理 资源 。YARN 支 持 动态 资源 
管理 , 更 适合 多 用 户 场景 下 的 集群 管理 , 而 且 YARN 可 以 同时 调度 Spark 计 算 和 Hadoop MR 
计算 , 还 可 以 调度 其 他 实现 了 YARN 调 度 接口 的 集群 计算 ,非常 适用 于 多 个 集群 同时 部 署 
的 场景 ， 是 目前 最 主流 的 一 种 资源 管理 系统 。 
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3.1 


口 Apache Mesos (资源 管理 器 是 Mesos 集 群 )。Mesos 是 一 个 专门 用 于 分 布 式 系统 资源 管理 
的 开源 系统 , 与 YARN 类 似 , 用 C++ 开发 , 可 以 对 集群 中 的 资源 做 弹性 管理 。 目 前 , Twitter, 
Apple 等 公司 在 使 用 Mesos 管 理 集群 资源 。Mesos 是 高 仿 谷歌 内 部 的 资源 管理 系统 Borg (1€ 
文 已 发 表 ) 实现 的 。 

涉及 的 其 他 名 词 如 下 。 


口 Allocation。 即 “分 配 ?。 

口 App、Application、Spark 程 序 。 泛 指 用 户 编写 的 运行 在 Spark 上 的 程序 ,不 仅 是 Scala 语 言 

编写 的 ， 其 他 支持 的 语言 编写 的 也 是 。 

口 节点 、Worker 节 点 。 集 群 上 的 计算 节点 ， 一 般 对 应 一 台 物 理 机 器 ， 仅 在 测试 时 会 出 现 一 

台 物 理 机 器 上 启动 多 个 节点 。 

口 Worker。 每 个 节点 上 会 启动 一 个 进程 ， 名 为 Worker， 负 责 管理 本 节点 ， 运 行 jps 命 令 可 以 

看 到 Worker 进 程 在 运行 

D core。Spark 标 识 CPU 资 源 的 方式 ， 对 应 一 个 或 多 个 物理 CPU 核心 ， 每 个 Task 运 行 时 至 少 

需要 一 个 core。 

O 执行 器 。 每 个 Spark 程 序 在 每 个 节点 上 启动 的 一 个 进程 ， 专 属于 一 个 Spark 程 序 ， 与 Spark 
程序 有 相同 的 生命 周期 ， 负 责 Spark 在 节点 上 启动 的 Task， 管 理 内 存 和 磁盘 。 如 果 一 个 节 
点 上 有 多 个 Spark 程 序 在 运行 ， 那么 相应 地 就 会 启动 多 个 执行 器 。 

OQ Job, 一 次 RDD Action 对 应 一 次 Job， 会 提交 至 资源 管理 器 调度 执行 。 

口 Stage 。Job 在 执行 过 程 中 被 分 为 多 个 阶段 。 介 于 Job 与 Task 之 间 ， 是 按 Shuffle 分 隔 的 Task 

A 

Ho 

O Task. 在 执行 器 上 执行 的 最 小 单元 。 比 如 RDD Transformation 操 作 时 对 RDD 内 每 个 分 区 的 

计算 都 会 对 应 一 个 Task。 


.2 Spark 程序 之 间 的 调度 


Spark 程 序 之 间 的 调度 资源 分 配 策略 有 如 下 两 种 。 

口 静态 分 配 。Spark 程 序 启动 时 即 一 次 性 分 配 所 有 资源 ， 运 行 过 程 中 国定 不 变 ， 直 至 程序 退 
出 。 这 是 一 种 最 简单 可 靠 的 分 配 策略 ， 强 烈 建议 优先 使 用 这 种 策略 ， 除 非 你 非常 确定 这 
种 方式 无 法 满足 需求 。 

口 动态 分 配 。 运 行 过 程 中 不 断 调整 分 配 的 资源 ， 可 以 按 需 增加 或 减少 。 这 比 静 态 分 配 复杂 
得 多 ， 需 要 在 实践 中 不 断 调试 才能 达到 最 优 。 

1. 静态 资源 分 配 

所 有 的 集群 管理 器 都 支持 静态 资源 分 配 ， 也 就 是 说 ， 每 个 Spark 程 序 都 分 配 一 个 最 大 可 用 的 


资源 数量 ， 而 且 在 程序 运行 的 整个 过 程 中 都 持 有 它 。 这 种 方式 在 Spark Standalone 模 式 、YARN 和 
Mesos 中 都 支持 ， 资 源 分 配 可 以 进行 如 下 配置 ( 取决 于 不 同 集群 )。 
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口 Standalone 模 式 。 上 默认 情况 下 ， 程 序 提交 至 Standalone 模 式 的 集群 下 时 ， 会 使 用 先进 先 出 
(FIFO ) 的 顺序 ,而 且 每 个 程序 都 尝试 尽 可 能 使 用 所 有 可 用 的 节点 。 我 们 可 以 限制 程序 使 
用 的 最 大 市 点 数量 ， 通 过 设置 spark .cores .max 属 性 ， 或 者 通过 设置 spark .deploy. 
defaultCores 来 设置 一 个 全 局 默认 值 ， 以 防 Spark 程 序 没 有 设置 。 最 后 ， 除 了 控制 core 
的 最 大 数量 外 ， 每 个 Spark 程 序 还 可 以 设置 spark .executor .memory 来 限制 它 能 使 用 的 
最 大 内 存 数量 。 

口 Mesos。 为 了 使 用 项 态 分 配 策略 ， 设 置 配置 项 spark.mesos.coarse 的 值 为 true， 还 可 
以 设置 spark.cores .max 来 限制 每 个 Spark 进 程 的 最 大 core 使 用 量 ， 还 需要 设置 
spark .executor .memory 来 限制 内 存 的 使 用 。 

口 YARN。 客 户 端 --num-executors 选 项 用 于 控制 最 多 分 配 的 执行 器 的 数量 ， 各 执行 器 内 

部 使 用 --executor-me ory fl- -executor-core s 来 限制 core 的 数量 和 内 存 大 小 。 

Mesos 上 第 二 个 选择 是 动态 共享 CPU 核 心 数 量 。 在 这 个 模式 下， 每 个 Spark 程 序 仍然 有 属于 自 

己 的 固定 且 独 立 的 内 存 资源 (通过 设置 spark .executor.memory )， 但 是 当 程序 在 某 个 机 器 上 

没有 运行 Task 时 ， 其 他 Spaxk 程 序 会 使 用 这 些 核心 。 这 种 模式 非常 适合 那些 数量 非常 多 但 不 那么 

活跃 的 程序 ， 比 如 来 自 不 同 用 户 的 shell 会 话 。 然 而 ， 随 之 而 来 的 风险 是 无 法 预 估 的 延迟 ， 因 为 当 

程序 有 Task 需 要 执行 时 ， 从 其 他 程序 那里 要 回 那些 本 属于 自己 的 核心 需要 一 些 时 间 。 要 想 使 用 这 

个 模式 ， 在 使 用 mesos:/ URL 时 不 设置 spark.mesos .coatrse 为 true 即 可 。 


需要 注意 的 是 ， 目 前 所 有 模式 下 都 没有 在 不 同 Spark 程 序 之 间 提 供 内 存 共享 的 能 力 。 如 果 你 想 用 
这 种 方式 来 共享 数据 ， 建 议 运 行 一 个 单独 的 服务 程序 来 响应 不 同 的 请 求 去 查询 同一 个 RDD。 在 未 来 
的 发 行 版 本 中 ，in-memory 存 储 系统 ( 比如 Tachyon ) 会 提供 另外 的 方式 在 不 同 的 程序 之 间 共 享 RDD。 

2. 动态 资源 分 配 

Spark 1.2 引 入 了 基于 负载 情况 的 集群 动态 资源 分 配 ， 分 配给 Spark 程 序 的 资源 可 以 增加 或 减 
少 。 这 意味 着 我 们 的 程序 可 能 会 在 不 使 用 资源 的 时 候 将 资源 还 给 集群 ,需要 的 时 候 再 从 集群 申请 。 
这 个 特性 在 多 个 程序 共享 集群 资源 的 时 候 特别 有 用 。 如 果 分 配给 Spark 程 序 的 资源 中 有 一 部 分 是 
空 闪 的， 它 就 可 以 返还 给 集群 放 入 资源 池 ， 这 样 可 以 被 其 他 程序 请 求 使 用 。 在 Spark 中 ， 动 态 资 
源 分 配 的 粒度 是 执行 器 ， 即 增加 或 减少 执行 器 。 前 面 已 经 介绍 过 ，Spark 程 序 在 机 器 的 每 个 节点 
上 只 有 一 个 执行 器 , 所 以 增加 或 减少 执行 器 意味 着 为 Spark 程 序 服务 的 节点 数据 量 的 增加 或 减少 。 
通常 ， 每 台 机 咒 启 动 一 个 节点 进程 ， 但 也 不 排除 启动 多 个 的 情况 发 生 。 你 可 以 通过 设置 


spark.dynamicAllocation.enabled 来 启动 这 个 功能 。 


这 个 特性 当前 只 有 在 YARN 模 式 下 才 可 以 使 用 ,未 来 的 版 本 也 支持 Standalone 模 式 和 Mesos 下 
的 coarse-grained 模 式 。 需 要 注意 的 是 ， 虽 然 Mesos 的 fine-grained 模 式 下 也 有 一 个 类 似 的 动态 资源 
分 配 ， 但 coarse-grained 模 式 下 的 动态 资源 分 配 特性 可 以 充分 利用 调度 低 延 迟 的 优势 。 


e 配置 动态 资源 分 配 
这 个 特性 的 所 有 配置 项 都 是 类 似 spark.dynamicAllocation.* 形 式 的 命名 。 要 想 开 启 这 个 特性 ， 
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必须 设置 spark.dynamicAllocation.enabledq 的 值 为 true， 其 他 配置 可 以 参考 配置 页 。 

此 外 ，Spark 程 序 还 必须 使 用 一 个 外 部 shuffle 服 务 ， 这 个 服务 的 目的 是 保存 执行 器 输出 的 
shuffle 文 件 , 这 样 执 行 器 可 以 安全 移 除 。 要 想 开 启 这 个 服务 , 请 设置 spark.shuffle.service. 
enabled 的 值 为 true。 在 YARN 中 ， 这 个 外 部 shuffle 服 务 是 集群 中 各 个 NodeManager 的 
org.apache.spark.yarn.network.YarnShuffleSservice 实 现 的 。 局 动 这 个 服务 的 步骤 如 下 。 

(1) 编译 Spark 时 带 上 YARN 选 项 。 如 果 使 用 官网 编译 好 的 版 本 ， 可 以 忽略 这 一 步 。 

(2) 找到 spark--yarn-shuffle.jar, 如 果 是 自己 编译 Spark, 这 个 文件 应 该 在 $SPARK_HOME/ netw 

ork/yarn/target/scala- 目 录 下 ; 如 果 是 官网 编译 好 的 版 本 ， 应 该 在 lib 目 录 下 。 

(3) 将 这 个 jar 包 添加 到 集群 中 所 有 NodeManager 的 classpath 中 去 。 

(4) 在 每 个 节点 的 yarn-site.xml 文 件 中 , 在 yarn.nodemanager.aux-services 选 项 中 添加 spark shuf 

fle, 然后 设 置 yarn.nodemanager.aux-services.spark_shuffle.class 的 值 为 
org.apache.spark.network.yarn.YarnShuffleService。 此 外 ， 设置 所 有 的 
spark.shuffle. service.* 选 项 。 

(5) 启动 集群 中 的 所 有 NodeManager。 

e 资源 分 配 策略 

从 最 上 面 看 ，Spa 水 应 该 在 执行 器 不 使 用 的 时 候 扔 掉 它 ， 然 后 在 需要 的 时 候 再 获取 。 由 于 没有 
准确 的 方式 来 预计 一 个 即将 被 删除 的 执行 器 是 否 会 在 稍 后 马上 运行 一 个 Task, 或 者 一 个 马上 要 添加 
的 新 执行 器 实际 上 是 空 闪 的 ， 因 此 我 们 需要 一 些 启发 式 的 方法 来 判断 是 否 应 该 新 增 或 删除 执行 右 。 

请 求 策略 

开启 动态 资源 分 配 之 后 ， 当 Spark 程 序 有 Task 处 于 排队 待 调度 时 ,会 请 求 额外 的 执行 器 资源 ， 
这 种 状况 说 明 现 有 的 执行 需 不 足以 让 所 有 尚未 执行 完 的 Task 的 并 发 达到 饱和 。 

Spark 会 一 直 循 环 请 求 执 行 嚣 资源。 实际 请 求 的 触发 是 在 当 排 队 Task 已 经 等 待 了 
spark.dynamicAllocation.schedulerBacklogTimeout 秒 ,然后 只 要 还 有 排队 的 Task， 就 
每 隔 spark.dynamicAllocation.schedulerBacklogTimeout 秒 请 求 一 次 。 此 外 ,每 一 轮 请 
求 的 执行 器 的 数量 会 成 指数 增长 。 比 如 , 一 个 程序 第 一 次 会 增加 一 个 执行 器 ， 接 下 来 的 数量 是 2、 
4、8， 以 此 类 推 。 

指数 增长 策略 的 动机 有 两 个 : 一 是 程序 刚 开始 时 申请 执行 器 应 该 着 慎 一 些 , 因为 万 一 只 要 一 
点 点 额外 的 执行 器 就 够 了 ， 原 理 类 似 于 TCP 的 慢 启动 ; 二 是 如 果 程 序 真 的 需要 放 多 执行 器 ， 应 该 
可 以 及 时 获取 到 。 

移 除 策略 

移 除 执行 器 的 策略 就 相对 简单 多 了 ， 当 Spark 程 序 的 某 个 执行 器 处 于 空闲 状态 的 时 间 超 过 
spark.dynamicAllocation.executorIdleTimeout 秒 之 后 会 被 移 除 。 注 意 ， 在 大 部 分 情况 
下 ， 这 个 条 件 与 请 求 的 条 件 是 互 斥 的 ， 即 当 有 Task 在 等 待 执行 时 ， 此 时 是 没有 空闲 执行 器 的 。 


e 执行 器 的 优雅 退出 

在 出 现 动态 分 配 之 前 ， 一 个 Spark 执 行 器 的 退出 要 么 是 因为 执行 失败 ， 要 么 是 所 属 的 Spark 程 
序 已 经 退出 。 不 管 哪 种 退出 ， 执 行 器 的 所 有 附属 状态 信息 都 不 再 需要 了 ， 可 以 安全 地 直接 丢弃 。 
然而 有 了 动态 分 配 之 后 ,执行 侨 退 出 时 进程 可 能 还 在 运行 。 如果 程 序 尝试 去 访问 执行 器 中 的 数据 ， 
就 会 触发 重新 计算 。 因 此 ，Spark 需 要 一 种 在 执行 器 优雅 退出 之 前 保存 执行 器 状态 的 机 制 。 

这 个 需求 对 于 shuffle 特 别 重 要 。 在 shuffle 期 间 ，Spark 执 行 器 首先 将 自己 的 map 结 果 写 人 本 地 
磁盘 ， 然 后 作为 一 个 服务 来 运行 ,其 他 执行 器 请 求 访问 这 些 数据 时 进行 响应 。 但 是 对 于 那些 执行 
时 间 远 超过 同伴 的 Task 来 说 ， 动 态 分 配 可 能 会 在 shuffle 结 束 之 前 移 除 这 个 执行 器 ， 这 样 执行 器 写 
的 shuffle 文 件 就 需要 进行 无 谓 的 重新 计算 。 

保存 shuffle 文 件 的 方法 是 使 用 一 个 外 部 的 shufle 服 务 , 这 在 Spark 1.2 中 已 经 引入 了 。 这 个 服务 
指向 一 个 长 期 运行 的 进程 ， 在 集群 的 每 个 节点 上 都 会 运行 ， 而 且 独 立 于 Spark 程 序 和 它们 的 执行 
器 。 如 果 这 个 服务 被 开启 了 , Spark 执 行 器 会 从 这 些 服务 那里 获取 shuffle 文 件 , 而 不 是 其 他 执行 器 。 
这 意味 着 执行 器 写 的 任何 shuffle 状 态 在 执行 器 退出 之 后 还 可 以 保留 。 

除了 写 shuffle 文 件 外 ， 执 行 器 还 会 在 磁盘 或 内 存 中 缓存 数据 。 当 执行 器 被 移 除 时 ， 所 有 缓存 
的 数据 都 不 能 被 访问 了 。 在 Spark 1.2 中 还 没有 方法 解决 。 在 未 来 的 发 布 中 ， 缓 存 的 数据 可 能 会 通 
过 一 个 堆 外 的 存储 系统 被 保留 下 来 ， 思 路 跟 shuffle 文 件 被 一 个 外 部 的 shuffle 服 务 保存 起 来 一 样 。 


3.1.3 Spark 程序 内 部 的 调度 

当 Spark 为 多 个 用 户 同 时 提供 服务 时 ， 我 们 可 以 考虑 配置 Spark 程 序 内 部 的 调度 。 

在 Spark 程 序 内 部 , 不 同 线程 提交 的 Job 可 以 并 行 执行 。Spark 的 调度 需 是 线程 安全 的 ， 因 此 可 
以 支持 这 种 需要 同时 处 理 多 个 请 求 的 服务 型 应 用 。 
默认 情况 下 , Spark 的 调度 器 以 FIFO 的 方式 运行 Job。 每 个 Job 分 成 多 个 Stage( 比如 map 和 reduce 
阶段 )， 如 果 最 前 面 Job 的 Stage 有 Task 要 运行 ， 优 先 获 取 所 有 资源 ， 然 后 才 是 第 二 个 Job ， 以 此 类 
推 。 如 果 队 列 中 的 第 一 个 Job 不 需要 所 有 资源 ， 那 么 第 二 个 Job 可 以 马上 运行 ， 但 如 果 第 一 个 Job 
特别 大 ， 则 后 面 的 Job 都 将 会 明显 延迟 。 

从 Spark 0.8 开 始 ， 我 们 可 以 配置 Job 之 间 公 平 共享 资源 。 在 公平 共享 方式 下 ，Spark 采 用 “ 循 
环 ”( round robin ) 的 方式 为 不 同 Job 之 间 的 Task 分 配 资 源 ， 这 样 所 有 的 Job 可 以 获取 差不多 相同 的 
资源 。 这 就 意味 着 ， 当 有 长 时 间 的 Job 在 运行 时 ， 短 的 Job 在 提交 之 后 也 可 以 马上 运行 并 且 取得 不 
错 的 响应 时 间 ， 而 不 用 等 长 时 间 的 Job 结 束 。 这 种 模式 特别 适用 于 多 用 户 的 场景 。 

要 想 开 启程 序 内 的 公平 调度 ， 只 需要 在 Sparkcontext 中 设置 spark.schedquler.mode 的 
值 为 FAIR: 


val conf = new SparkConf().setMaster(...).setAppName(...) 
conf.set("spark.scheduler.mode", "FAIR") 
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val sc = new SparkContext (conf) 

1. 公平 调度 池 

公平 调度 还 支持 对 多 个 Job 进 行 分 组 ， 这 个 分 组 称 为 调度 池 。 每 个 调度 池 可 以 设置 不 同 的 调度 
选项 ， 当 我 们 想 要 为 一 些 更 重要 的 Job 设 置 更 高 的 优先 级 时 ， 这 个 功能 就 非常 有 用 了 。 再 比如 , 我 
们 可 以 为 不 同 的 用 户 设置 不 同 的 调度 池 ， 然 后 让 各 个 资源 池 平 等 地 共享 资源 ， 而 不 是 按 Job 来 共享 

不 做 设置 的 话 ， 新 提供 的 Job 会 自动 进入 默认 调度 池 。 我 们 可 以 指定 让 Job 进 入 哪个 调度 池 ， 
具体 方法 是 提交 任务 的 线程 在 sparkCont ext 中 设置 spark .Scheduler.pool, 如 下 所 示 : 


Sc.setLocalProperty("spark.scheduler.pool", "pooll") 


这 样 设置 之 后 ， 这 个 线程 提交 的 所 有 Job ( 每 个 RDD Action 都 会 触发 提交 一 次 Job ， 比 如 
count 、collect 、save 等 ) 都 会 使 用 这 个 调度 池 。 设置 按 线 程 来 进行 ， 这 样 可 以 很 方便 地 让 
一 个 线程 下 的 所 有 Job 都 在 同一 个 用 户 下 。 如 果 要 清空 当前 线程 的 调度 池 设 置 ， 可 以 这 样 设 置 : 


Sc.setLocalProperty("spark.scheduler.pool", null) 
2. 调度 池 的 默认 行为 
默认 情况 下 ， 所 有 调度 池 平 均 共享 集群 的 资源 ， 默认 调度 池 也 是 。 但 在 每 个 调度 池内 部 , 各 
个 Job 是 按 FIFO 的 顺序 来 执行 的 。 比 如 ， 你 为 每 个 用 户 创建 一 个 调度 池 ， 那 么 每 个 用 户 平均 共享 
集群 资源 ， 但 每 个 用 户 的 查询 请 求 是 按 顺序 进行 的 ， 而 不 是 后 面 来 的 请 求 从 这 个 用 户 前 面 的 Job 
中 挤占 资源 。 
3. 调度 池 配 置 
调度 池 的 配置 也 可 以 放 在 配置 文件 中 ， 每 个 调度 池 有 如 下 3 个 属性 。 
O schedulingMode。 可 以 是 FIFO 或 FAIR, 用 于 控制 调度 池内 的 Job 是 排队 执行 还 是 平均 共 
口 weight。 用 于 控制 调度 池 相 对 于 其 他 调度 池 的 权重 ， 是 一 个 相对 值 。 默 认 情 况 下 ， 所 有 
调度 池 的 权重 是 1， 它 们 平均 共享 集群 资源 。 如 果 某 个 调度 池 的 权重 是 2， 那 么 它 就 拥有 
权重 为 1 的 调度 池 2 倍 的 资源 。 设 置 一 个 非常 高 的 权重 ， 比 如 1000， 相 当 于 配置 了 各 个 调 
度 池 的 优先 级 。 实 际 上 ， 权 重 为 1000 的 调度 池 只 要 有 一 个 Job 就 会 优先 启动 。 
口 minshare。 除 了 权重 ,还 可 以 设置 一 个 最 小 资源 值 ( core 的 数量 )。 公 平 调度 器 在 按 权 限 
分 配 资源 之 前 ， 总 是 会 满足 各 个 调度 池 的 最 小 资源 值 。 这 样 minshare 可 以 保证 调度 池 总 
是 会 获取 一 些 资源 , 并 且 不 被 集群 中 其 他 高 优先 级 的 调度 池 抢 走 。minshare 的 默认 值 是 0。 
调度 池 的 配置 文件 是 一 个 XML 文件, 类 似 于 conf/fairscheduler.xml.template。 可 以 在 SparkConf 
中 指定 配置 文件 : 


conf.set("spark.scheduler.allocation.file", "/path/to/file") 
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XMI 文 件 的 格式 很 简单 ， 每 个 调度 池 对 应 一 个 <pool> 节 点 ， 贡 点 里 面 的 成 员 就 是 调度 池 的 
属性 ， 比 如 : 


<?xml version-"1.0"?» 
«allocations» 

«pool name-"production"- 
«schedulingMode»FAIR«/schedulingMode- 
«weight»1«/weight» 
«minShare»2«/minShare» 

«/pool» 

«pool name="test"> 
«schedulingMode»FIFO«-c/schedulingMode»- 
«weight»2«/weight» 
«minShare»3«/minShare» 

«/pool» 

«/allocations» 


完整 的 示例 可 以 参考 confjfairschedulerxml.template。 配 置 文件 中 没有 出 现 的 调度 池 都 被 设置 
为 默认 值 ( schequlingMoae 为 FIFO，weight 为 1，minSshare 为 0 )。 


32 内存 管理 


相 比 Hadoop MapReduce 来 说 ，Spark 计 算 具 有 巨大 的 性 能 优势 ， 其 中 很 大 一 部 分 原因 是 Spark 
对 于 内 存 的 充分 利用 ， 以 及 提供 的 缓存 机 制 。 


3.2.1 RDD 持久 化 


持久 化 在 早期 被 称 作 缓存 (cache), 但 缓存 一 般 指 将 内 容 放 在 内 存 中 。 虽 然 持 久 化 操作 在 绝 
大 部 分 情况 下 都 是 将 RDD 缓 存在 内 存 中 , 但 一 般 都 会 在 内 存 不 够 时 用 磁盘 项 上 去 ( 比 操作 系统 默 
认 的 磁盘 交换 性 能 高 很 多 )。 当 然 ， 也 可 以 选择 不 使 用 内 存 ， 而 是 仅仅 保存 到 磁盘 中 。 所 以 ， 现 
在 Spark 使 用 持久 化 (persistence ) 这 一 更 广泛 的 名 称 。 

如 果 一 个 RDD 不 止 一 次 被 用 到 , 那么 就 可 以 持久 化 它 , 这 样 可 以 大 幅 提升 程序 的 性 能 ,甚至 
达 10 倍 以 上 。 默 认 情况 下 ,RDD 只 使 用 一 次 ,用 完 即 扔 ， 再 次 使 用 时 需要 重新 计算 得 到 ， 而 持久 
化 操作 避免 了 这 里 的 重复 计算 ， 实 际 测 试 也 显示 持久 化 对 性 能 提升 明显 ， 这 也 是 Spark 刚 出 现时 
被 人 称 为 内 存 计算 的 原因 。 

持久 化 的 方法 是 调用 persist () 函数 ， 除 了 持久 化 至 内 存 中 ， 还 可 以 在 bersist O 中 指定 
storage level 参 数 使 用 其 他 的 类 型 ， 具 体 如 表 3-1 所 示 。 


表 3-1 storage level 参 数 
storage level 说 明 


MEMORY ONLY 默认 的 持久 化 级 别 ， 只 持久 到 内 存 中 〈 以 原始 对 象 的 形式 ) 需要 时 直接 访问 , 不 需 
要 反 序 列 化 操作 。 内 存 不 足 时 ， 多 余 的 部 分 不 会 被 持久 化 ， 访 问 时 需要 重新 计算 
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CER) 
storage level 说 RH 
MEMORY AND DISK 持久 化 到 内 存 中 ， 内 存 不 足 时 用 磁盘 代替 
MEMORY ONLY SER 类 似 于 MEMORY_ONLY, 但 格式 是 序列 化 之 后 的 数据 (每 个 分 区 一 字 节 数组 )， 可 以 更 
市 省 内 存 ， 代 价 是 消耗 CPU 
MEMORY AND DISK SER 类 似 于 MEMORY_ONLY_SER， 内 存 不 足 时 用 磁盘 代 赫 
DISK_ONLY 只 使 用 磁盘 


* 2， 比如 MEMORY_oONLY 2 和 与 上 面 的 级 别 类 似 ， 但 数据 还 复制 到 集群 的 另外 一 个 节点 上 ， 总 共 两 份 副 本 ， 可 提 


MEMORY_AND_DISK_2 等 升 可 用 性 


此 外 ，RDD.unpersist1() 方 法 可 以 删除 持久 化 。 


3.22 ”共享 变量 

Spark 程 序 的 大 部 分 操作 都 是 RDD 操 作 ， 通 过 传人 函数 给 RDD 操 作 函 数 来 计算 。 这 些 函 数 在 
不 同 的 节点 上 并 发 执行 ,内 部 的 变量 有 不 同 的 作用 域 , 不 能 相互 访问 ， 有 些 情 况 下 不 太 方便 ,所 
以 Spark 提 供 了 两 类 共享 变量 供 编程 使 用 一 广播 变量 和 计数 器 。 

1. 广播 变量 


这 是 一 个 只 读 对 象 , 在 所 有 节点 上 都 有 一 份 缓存 ,创建 方法 是 sparkcontext .broadcast () ， 
比如 : 


scala> val broadcastVar = sc.broadcast (Array (1, 2, 3)) 


broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast (0) 
Scala» broadcastVar.value 
res0: Array[Int] - Array(1, 2, 3) 


注意 ,广播 变量 是 只 读 的 ， 所 以 创建 之 后 再 更 新 它 的 值 是 没有 意义 的 ， 一 般 用 val 修 饰 符 来 
定义 广播 变量 。 

2. 计数 器 

计数 器 只 能 增加 ， 可 以 用 于 计数 或 求 和 ， 默 认 是 数值 型 ， 支 持 自 定义 类 型 。 在 Web 界 面 上 ， 
也 可 以 看 到 计数 天 共享 变量 。 

计数 需 变 量 的 创建 方法 是 sparkCcontext .accumulator (v, name), 其 中 v 是 初始 值 , name 
是 名 称 。 注意, 只 有 Driver 程 序 可 以 读 这 个 计算 器 变量 , RDD 操 作 中 读 取 计 数 器 变量 是 无 意义 的 。 


示例 如 下 : 
scala> val accum = sc.accumulator(0, "My Accumulator") 
accum: org.apache.spark.Accumulator[Int] = 0 


Scala» sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x) 


15/10/03 17:57:51 INFO DAGScheduler: Job 0 finished: foreach at «console»:24, took 
0.649155 s 

Scala» accum.value 

resi: Int = 10 
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3.3 ”容错 机 制 


分 布 式 系统 通常 在 一 个 机 器 集群 上 运行 , 同时 运行 的 几 百 台 机 器 中 某 些 出 问题 的 概率 大 大 增 
加 ， 所 以 容错 设计 是 分 布 式 系统 的 一 个 重要 能 力 。 


3.3.1 ”容错 体系 概述 


Spark 以 前 的 集群 容错 处 理 模型 ， 像 MapReduce， 将 计算 转换 为 一 个 有 向 无 环 图 (DAG ) 的 
任务 集合 , 这 样 可 以 通过 重复 执行 DAG 里 的 一 部 分 任务 来 完成 容错 恢复 。 但 是 由 于 主要 的 数据 存 
储 在 分 布 式 文件 系统 中 , 没有 提供 其 他 存储 的 概念 ， 容 错过 程 需 要 在 网 络 上 进行 数据 复制 ， 从 而 
增加 了 大 量 的 消耗 。 所 以 , 分布 式 编程 中 经 常 需要 做 检查 点 ， 即 将 某 个 时 机 的 中 间 数 据 写 到 存储 
(通常 是 分 布 式 文件 系统 ) 中 。 

RDD 也 是 一 个 DAG， 每 一 个 RDD 都 会 记 住 创建 该 数据 集 需 要 哪些 操作 ， 跟 踪 记 录 RDD 的 继 
承 关 系 ， 这 个 关系 在 Spark 里 面 叫 lineage。 由 于 创建 RDD 的 操作 是 相对 粗 粒 度 的 变换 ( 如 map、 
filter、join )， 即 单一 的 操作 应 用 于 许多 数据 元 素 ， 而 不 需 存储 真正 的 数据 ， 该 技巧 比 通过 
网 络 复制 数据 更 高 效 。 当 一 个 RDD 的 某 个 分 区 丢失 时 ，RDD 有 足够 的 信息 记录 其 如 何 通过 其 他 
RDD 进 行 计算 ， 且 只 需 重 新 计算 该 分 区 ， 这 是 Spark 的 一 个 创新 。 

Spark 的 lineage 也 不 是 完美 解决 所 有 问题 的 ， 因 为 RDD 之 间 的 依赖 分 为 两 种 ， 如 图 3-2 所 示 。 


窄 依赖 宽 依 赖 


map, filter Æ groupByKey 
28 分 区 相同 的 join 
union 分 区 不 同 的 join 


图 3-2 RDD 之 间 的 两 种 依赖 
根据 父 RDD 分 区 是 对 应 一 个 还 是 多 个 子 RDD 分 区 ， 依 赖 分 为 如 下 两 种 。 
口 窄 依赖 。 父 分 区 对 应 一 个 子 分 区 。 


68 第 3 章 Spark 工作 机 制 


Q 宽 依 赖 。 父 分 区 对 应 多 个 子 分 
对 于 罕 依 赖 ， 只 需要 通过 重新 计算 丢失 的 那 一 块 数据 来 恢复 ,容错 成 本 较 小 。 但 如 果 是 宽 依 
赖 , 则 当 容 错 重 算 分 区 时 ， 因 为 父 分 区 数据 只 有 一 部 分 是 需要 重 算 子 分 区 的 ， 其 余数 据 重 算 就 造 
成 了 元 余 计 算 。 


I 


o 


所 以 , 不 同 的 应 用 有 时 候 也 需要 在 适当 的 时 机 设置 数据 检查 点 。 由 于 RDD 的 只 读 特 性 使 得 它 
比 常用 的 共享 内 存 更 容易 做 检查 点 ， 具 体 可 以 使 用 docheckPoint 方 法 。 


在 有 些 场景 的 应 用 中 ， 容 错 会 更 复杂 ， 比 如 计 费 服务 等 ， 要 求 零 丢失 。 还 有 在 Spark 支 持 的 
Streaming 计 算 的 应 用 场景 中 , 系统 的 上 游 不 断 产 生 数据 ,容错 过 程 可 能 造成 数据 丢失 。 为 了 解决 
这 些 问 题 ，Spark 也 提供 了 预 写 日 志 (也 称 作 journal )， 先 将 数据 写 人 支持 容错 的 文件 系统 中 ， 然 
后 才 对 数据 施加 这 个 操作 。 


另外 ,Kafka 和 Flume 这 样 的 数据 源 ， 接 收 到 的 数据 只 在 数据 被 预 写 到 日 志 以 后 ,接收 天 才 会 
收 到 确认 消息 ， 已 经 缓存 但 还 没有 保存 的 数据 在 Driver 程 序 重新 启动 之 后 由 数据 源 从 上 一 次 确认 
点 之 后 重新 再 发 送 一 次 。 


这 样 ， 所 有 的 数据 要 不 从 日 志 中 恢复 ， 要 不 由 数据 源 重 发 ， 实 现 了 零 丢失 。 


3.3.2 Master 节点 失效 


Spark Master 的 容错 分 为 两 种 情况 : Standalone 集 群 模式 和 单 点 模式 。 

Standalone 集 群 模式 下 的 Master 容 错 是 通过 ZooKeeper 来 完成 的 ， 即 有 多 个 Master， 一 个 角色 
是 Active， 其 他 的 角色 是 Standby。 当 人 处 于 Active 的 Master 异 常 时 , 需要 重新 选择 新 的 Master, 通过 
ZooKeeper 的 ElectLeader 功 能 实现 。 关 于 ZooKeeper 的 实现 ， 这 里 就 不 展开 了 ， 感 兴趣 的 朋友 可 以 
参考 Paxos。 


要 使 用 ZooKeeper 模 式 , 你 需要 在 conf/spark-env.sh 中 为 SPARK_DAEMON_JAVA_OPTS 添 加 一 些 
选项 ， 详 见 表 3-2。 


表 3-2 ”为 SPARK_DAEMON_JRAVRA_OPTS 添 加 的 一 些 选项 
系统 属性 说 明 


spark.deploy.recoveryMode ”默认 值 为 NONE。 设 置 为 ZOOKEEPER 后 ， 可 以 在 Active Master 异 常 之 后 重新 选择 一 个 
Active Master 


Spark.deploy.zookeeper.url “ZooKeeper 集 群 地 址 (比如 192.168.1.100:2181,192.168.1.101:2181) 
Spark.deploy.zookeeper.dir 用 于 恢复 的 ZooKeeper 目 录 ， 默 认 值 为 /spark 


设置 SPARK_DAEMON_JAVA_OPTS 的 实际 例子 如 下 : 


SPARK_DAEMON_JAVA_OPTS="SSPARK_DAEMON_JAVA_OPTS 
-Dspark.deploy.recoveryMode -ZOOKEEPER" 


应 用 程序 启动 运行 时 ， 指 定 多 个 Master 地 址 ， 它 们 之 间 用 逗号 分 开 ， 如 下 所 示 : 

MASTER=spark://192.168.100.101:7077,spark://192.168.100.102:7077 bin/spark-shell 

在 ZooKeeper 模 式 下 ,恢复 期 间 新 任务 无 法 提交 ,已 经 运行 的 任务 不 受 影响 。 

JL, Spark Master 还 支持 一 种 更 简单 的 单 点 模式 下 的 错误 恢复 ， 即 当 Master 进 程 异常 时 , E 
启 Master 进 程 并 从 错误 中 恢复 。 具 体 方法 是 设置 spark .deploy .recoveryMode 属 性 的 值 为 
FILESYSTEM, 并 为 spark .deploy. recoveryDirectory 属 性 设置 一 个 本 地 目录 ， 用 于 存储 必 
要 的 信息 来 进行 错误 恢复 。 


3.8.8 Slave 节点 失效 


Slave 节 点 运行 着 Worker 、 执 行 器 和 Driver 程 序 ， 所 以 我 们 分 三 种 情况 讨论 下 3 个 角色 分 别 退 
出 的 容错 过 程 。 
O Worker 异 常 停止 时 ， 会 先 将 自己 启动 的 执行 器 停止 ，Driver 需 要 有 相应 的 程序 来 重启 
Worker 进 程 。 
O 执行 器 异常 退出 时 ，Driver 没 有 在 规定 时 间 内 收 到 执行 器 的 StatusUpdate， 于 是 Driver 
会 将 注册 的 执行 器 移 除 ，Worker 收 到 LaunchExecutor 指 令 ， 再 次 启动 执行 器 。 
O Driver 异 常 退 出 时 ， 一 般 要 使 用 检查 点 重启 Driver， 重 新 构造 上 下 文 并 重启 接收 器 。 第 一 
步 ， 恢 复 检查 点 记录 的 元 数据 块 。 第 二 步 ， 未 完成 作业 的 重新 形成 。 由 于 失败 而 没有 处 
理 完 成 的 RDD , 将 使 用 恢复 的 元 数据 重新 生成 RDD , 然后 运行 后 续 的 Job 重 新 计算 后 恢复 。 


有 多 种 方式 来 监控 Spark 程 序 的 运行 状况 : Web 界 面 、Metrics ， 还 有 外 部 系统 。 


3.4.1 Web 界面 


每 个 Driver 的 sparkcontext 都 会 启动 一 个 Web 界 面 ， 默 认 端 口 是 4040， 用 于 显示 程序 的 许 
多 有 用 信息 ， 包 括 : 
Q 调度 器 Stage 、Task 列 表 ; 
口 RDD 大 小 和 内 存 使 用 统计 概况 ; 
口 环境 信息 ; 
口 正在 运行 的 执行 器 信息 。 

在 浏览 器 中 输入 地 址 http://<driver-node>:4040 就 可 以 访问 这 个 界面 ， 如 果 同 一 个 节 
点 上 运行 多 个 Sparkcontext ， 它 们 会 绑 定 在 紧 接 着 4040 之 后 的 端口 上 〈4041 和 4042 等 )。 
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本 地 启动 ./bin/spark-shell 后 ， 


在 浏览 需 中 可 以 看 到 如 图 3-3 所 示 的 内 容 。 


Spark shell - Spark Jobs X 


.所 @ 192168.199.40:4040/j0bs/ 


Spak ... 


Jobs Stages Storage Environment Executors 
? 
Spark Jobs (?) 
Total Uptime: 1.6 min 
Scheduling Mode: FIFO 
» Event Timeline 
7] Enable zooming 
Executors 
国 Added 
(89 Removed 
Jobs | 
7] Succeeded 
(99 Failed 
Running 
S A ———Á— M -— ile -— 
|Thu 13 Fri 14 Sat 15 
August 2015 
图 3-3 ”本 地 启动 ./bin/spark-shell 
执行 了 一 些 任务 后 ， 你 将 会 看 到 如 图 3-4 所 示 的 内 容 。 
Spa TAa Jobs Stages Storage Environment Executors 
Stages for All Jobs 
Completed Stages: 9 
Completed Stages (9) 
Stage Tasks: Shuffle Shuffle 
id Description Submitted Duration Succeeded/Total Input Output Read Write 
12 collect at <console>:48 +details 2015/0816 — 56ms GMM 985.0 B 
22:41:35 
11 map at <console>:40 +details 2015/08/16 — 0.15 mdi 24KB 9850B 
22:41:35 
10 flatMap at <console>:39 sdetals 2015/08406 0.1s e: 697.0B 1082.0 B 
22:41:35 
9 parallelize at <console>:37 +details 2015/0816 0.1 s wi 1407.0B 
22:44:34 
4 collect at «console»-35 +details 2015/0816 — 57ms GMM 697.0 B 
22:41:33 
2 map at <console>:35 +details 2015/0816 02s GMM 4350B  5410B 
22:41:32 
3 map at <console>:23 +details 2015/0816 08s GEA 20 156.0 B 
22:41:31 B 
1 map at <console>:31 sdetals 2015/08/06 0.8s C o 265.0 B 
224131 B 
0 map at «console»-23 +details 2015/0816 ^ 08s D 350 170.0 B 
22:41:31 B 


BRA 倩 况 下 ， 这 些 信 息 RE HB 


图 3-4 ”执行 一 些 任 务 后 的 界面 


能 在 程序 运行 时 看 到 。 如 果 希 望 在 程序 运行 


rds 你 需要 在 程序 启动 前 设置 spark . eventLog. enabledJjtrue, 


结束 之 后 还 和 


bE 看 到 这 些 


这 样 这 文 些 运 行 信 息 会 被 作 
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为 事件 永久 存储 。 
Spark Standalone 模 式 的 集群 管理 器 有 自己 Web 界 面 。 如 果 Spark 程 序 设置 了 spark. 


eventLog.enabled 为 true， 那 么 在 Spark 程 序 运 


到 根据 记录 的 消息 重 现 的 Spark 程 序 界 面 。 


如 果 Spark 程 序 运行 在 Mesos 或 YARN 上 ， 你 还 


面 。 启 动 Spark 历 史 服务 器 的 命令 如 下 ; 


./Sbin/start-history-server.sh 


如 果 spark.history.provider 是 文件 系统 
logDirectory 中 配置 ， 每 个 子 目 录 对 应 一 个 Spark 程 序 的 事件 日 志 。 历史 服务 会 启动 一 个 Web 


结束 之 后 ， 在 集群 的 Web 界 面 上 ， 还 可 以 看 


是 可 以 通过 


Spark 历 史 服 务 在 事后 重建 程序 界 


， 则 日 志 根 目录 必须 在 spark .history .fs. 


spark.history. 


界面 ， 默认 地 址 是 http ://<server-url>:18080。 
历史 服务 支持 的 配置 如 表 3-3 和 表 3-4 所 示 。 
表 3-3 ”历史 服务 支持 的 环境 变量 
环境 变量 默认 值 作 用 

SPARK DAEMON MEMORY 512m 分 配给 历史 服务 器 的 内 存 大 小 

SPARK DAEMON JAVA OPTS none JVM 选 项 

SPARK_PUBLIC_DNS none 历史 服务 器 的 外 部 域名 ， 可 以 在 公 网 上 访问 。 如 果 没 有 配置 ， 只 能 通过 内 
部 地 址 引用 server， 可 以 导致 断 链 

SPARK_HISTORY_OPTS none * 选 项 


表 3-4 ”历史 服务 支持 的 属性 


属 性 默认 值 ft 用 
spark.history. org.apache.spark.deploy. 后 端 实 现 的 类 名 ， 目 前 上 只 有 Spark 提 供 的 一 个 
provider history.FsHistoryProvider 实现 ， 从 文件 系统 中 查找 程序 日 志 
Spark.history.fs. file:/tmp/spark-events 存储 程序 事件 日 志 的 根 上 目录， 历史 服务 器 从 
logDirectory 这 里 加 载 
spark.history.fs. 10s 历史 服务 器 更 新 显示 信息 的 频率 ， 每 次 都 会 
update.interval 检查 日 志 的 任何 变动 
spark. pm TEN 50 最 多 保留 的 程序 界面 数量 ， 如 果 超 过 ， 则 最 
retainedApplications 
旧 的 程序 会 被 移 除 
Spark.history.ui.port 18080 Web 界 面 的 绑 定 端口 
spark.history. false 历史 服务 器 是 否 使 用 kerberos 来 登录 。 如 果 历 
DE E 史 服务 器 访问 有 案例 配置 的 HDFS 集 群 , 就 需 
要 它 了 。 如 果 该 属性 设置 为 true， 就 会 使 用 
选项 spark.history .kerberos .principal 
和 spark.history .kerberos .keytab 
spark.history. (none) 历史 服务 器 使 用 的 Kerberos 主 体 名 称 
kerberos.principal 
Spark.history. (none) kerberos keytab 文 件 的 位 置 


kerberos.keytab 
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(EE) 
属 性 默认 值 作 用 
Spark.history. false 配置 是 否 对 访问 用 户 进 行 acl 授 权 检 查 。 如 果 开 


ui.acls.enable 局， 即便 这 个 程序 的 spark.ui.acls.enable 


选项 没有 开启 ， 还 是 会 进行 访问 控制 。Spark 程 
序 的 所 有 者 永远 都 有 权限 访问 ，spark.ui. 
view.acls 中 指定 的 用 户 在 程序 运行 时 也 有 权 


限 访问 
如 果 不 开 启 ， 则 不 做 任何 访问 控制 ， 所 有 人 都 
可 以 访问 
spark.history.fs. false 历史 服务 器 是 否定 期 清理 事件 日 志 
cleaner.enabled 
spark.history.fs. id 旧 的 事件 日 志 的 清理 周期 ， 只 有 比 spark. 
cleaner.interval history.fs.cleaner.maxage 还 久远 的 事件 
日 志 才 被 删除 
Spark.history.fs. 7à 比 这 个 时 间 还 和 久远 的 旧 日 志 会 被 删除 


Cleaner.maxAge 

另外 ， 这 些 Web 界 面 表格 的 头 部 都 支持 点 击 排序 ， 方 便 我 们 定位 最 慢 的 Task、 数 据 异常 等 。 

还 有 ， 历 史 服 务 器 只 显示 已 经 结束 的 Spark Job 。 一 个 触发 Spark 程 序 结束 的 方法 是 停止 
SparkContext 对 象 的 运行 (方法 是 sc .stop() ), 或 者 在 Python 中 使 用 with SparkContext () 


as sc: 来 处 理 sSparkcontext 的 创建 和 销毁 ， 这样 可 以 在 历史 服务 器 界面 上 看 到 这 些 Job。 


3.4.2 REST API 


除了 通过 Web 界 面 查看 外 , 还 可 以 通过 JSON 接 口 , 这 样 开 发 人 员 可 以 自己 开发 可 视 化 展示 形式 。 

历史 服务 器 和 正在 运行 的 Spark 程 序 的 Web 界 面 都 支持 REST API。 入 口 都 是 /apiv1, 比如 历史 
服务 器 的 访问 地 址 是 http://<server-url>:18080/api/v1， 正 在 运行 的 Spark 程 序 的 访问 地 
址 是 http://localhost:4040/api/v1。 入 口 地 址 及 对 应 的 意义 参见 表 3-5。 


表 3-5 ”入 口 地 址 及 对 应 意义 


入 口 地 址 意 x 
/applications 所 有 程序 的 列表 
/applications/[app-id]/jobs 指定 程序 的 Job 列 表 
/applications/[app-id]/jobs/[job-id] 指定 Job 详 情 
/applications/[app-id]/stages 指定 程序 的 Stage 列 表 


/applications/[app-id 


/stages/[stage-id] 


/applications/[app-id]/stages/[stage-id]/[stage-attempt-id] 


/applications/[app-id 
/applications/[app-id 
/applications/[app-id 
/applications/[app-id 
/applications/[app-id 


/stages/[stage-id]/[stage-attempt-id]/taskSummary 
/stages/[stage-id ]/[stage-attempt-id]/taskList 
/executors 

/storage/rdd 

/storage/rdd/[rdd-id] 


指定 Stage 的 attempt 列 表 
虽 定 Stage attempt 的 详情 
指定 Stage attempt 的 所 有 Task 的 统计 信息 
指定 Stage attempt 的 Task 列 表 
指定 程序 的 执行 器 列表 
指定 程序 的 RDD 列 表 
指定 RDD 的 存储 详情 


3.5 Spark 程序 配置 管理 。 73 


当 运 行 在 YARN 上 时 ， 每 个 程序 都 有 多 个 attempt， 所 以 所 有 [app-id] 实 际 上 是 [app-id]/ 
[attempt-id]。 

所 有 这 些 和 人 口 地 址 都 有 严格 的 版 本 控制 ， 这 让 基于 它 进行 二 次 开发 更 简单 。Spark 保 证 : 
口 这 些 地 址 永远 不 会 在 某 个 版 本 中 删除 ， 任 何 地 址 中 提供 的 每 个 字段 都 不 会 被 删除 ; 
OQ 可 能 添加 新 的 入 口 地 址 ; 
口 现 有 入 口 地 址 可 能 添加 新 的 字段 ; 
Q 每 个 人 口 地 址 在 未 来 都 可 能 添加 新 版 本 的 API ( 比如 api/V2 )， 新 版 本 不 要 求 向 下 兼容 老 
版 本 ; 
O API 版 本 可 能 被 废弃 ， 但 前 提 是 新 的 版 本 可 以 与 之 共存 ， 而 且 新 版 本 不 只 是 发 布 主 版 本 ， 

至 少 有 一 个 次 版 本 发 布 。 

需要 提醒 的 是 ， 即 使 是 集群 上 只 有 一 个 程序 在 跑 ， 人 和 人口 地 址 中 的 applications/[app-id] 部 分 也 
是 必 不 可 少 的 ， 比 如 为 了 查看 这 个 正在 运行 的 程序 的 所 有 Job， 必 须 通 过 http://localhost:4040/ 
api/vl/applications/[app-id]/iobs 这 个 地 址 。 这 样 可 以 确保 在 任何 模式 下 的 路 径 都 一 致 。 


3.4.5 Metrics 指标 体系 
除了 Web 界 面 和 REST API 服 务 外 ，Spark 还 支持 基于 Coda Hale Metrics Library 的 指标 体系 ， 
可 以 主动 将 运行 状态 发 送 给 其 他 系统 ， 方 便 与 其 他 监控 系统 进行 集成 ， 比 如 Ganglia。 


Spark x 4 JMetrics3z[|/£j Master, Applications, 、Worker 、 执 行 器 和 Driver， 支 持 的 接收 者 类 
型 包含 在 org.apache.spark.metrics.sink 包 中 ， 包括 ConsoleSink、CSVSink、JmxSink、 
MetricsServlet 、GraphiteSink 和 Slf4jSink。 


详情 请 参考 官方 文档 以 及 Coda Hale Metrics Library 文 档 ， 这 里 不 作 详 述 。 


3.4.4, 其 他 监控 工具 


除了 系统 自 带 的 工具 ， 还 有 其 他 工具 可 以 帮助 我 们 监控 Spark 集 群 的 工作 状况 ， 具 体 如 下 。 

O 集群 级 别 。 比 如 ， 可 以 使 用 Ganglia 来 监控 各 节点 的 CPU、 磁 盘 、 网 络 等 负载 情况 。 

口 操作 系统 级 别 。 可 以 使 用 操作 系统 自 带 的 工具 ( 比如 dstat 、iostat 、iotop 等 ) 来 针对 单个 
节点 的 问题 进行 定位 。 

口 Java 虚 拟 机 工具 。 比 如 jstack 、jmap 、jstat、jconsole 等 。 


3.5 Spark 程序 配置 管理 


Spark 对 程序 提供 了 非常 灵活 的 配置 方式 ， 可 以 使 用 环境 变量 、 配 置 文件 、 命 令 行 参数 ， 还 
可 以 直接 在 Spark 程 序 中 指定 ， 不 同 的 配置 方式 有 不 同 的 优化 级 ， 可 以 相互 覆盖 。 而 且 这 些 配置 
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c 


属性 在 Web 界 面 中 可 以 直接 看 到 ， 非 常 方便 我 们 管理 配置 。 


3.5.1 Spark 程序 配置 加 载 过 程 


Spark 程 序 一 般 都 是 由 脚本 bin/spark-submit 来 提交 的 , 交互 式 编程 bin/spark-shell 其 实 也 是 通过 
它 来 提交 的 。 通 过 这 种 方式 启动 的 Spark 程 序 的 加 载 配置 过 程 如 下 。 

(1) 设置 SPARK_HOME 的 值 为 bin/spark-submit 脚 本 所 在 目录 的 上 一 级 目录 。 

(2) 计算 配置 文件 目录 ， 从 环境 变量 SPARK_CONF_DIR 中 读 取 。 如 果 没 有 设置 ， 则 取 默 认 值 

$(SPARK HOME) /conf。 

(3) 执行 配置 文件 目录 下 的 shell 脚 本 配置 文件 spark-envsh， 设 置 基本 的 环境 变量 。 

(4) 加 载 配置 文件 目录 下 的 默认 配置 文件 spark-defaults.conf。 

(5) 读 取 命令 行 参 数 ， 履 盖 前 面 的 默认 配置 。 

(6) 使 用 sparkconf 对 象 中 的 选项 ， 覆 盖 前 面 的 配置 。 

上 面 的 加 载 过 程 中 涉及 的 Spark 程 序 配置 项 有 两 类 ， 一 类 是 第 (1) 步 至 第 (3) 步 中 使 用 的 环境 变 
量 ， 另 外 一 类 是 第 (4) 步 至 第 (6) 步 中 加 载 的 Spark 属 性 项 。 


3.5.2 “环境 变量 配置 


少量 基础 的 Spark 程 序 配 置 可 以 通过 环境 变量 的 方式 来 指定 ， 比 如 配置 文件 目录 是 通过 环境 
变量 SPARK_CONF_DIR 来 指定 的 ， 其 默认 值 是 $ {SsPARK_HOME}/conf。 我 们 可 以 在 提交 Spa 水 程 
序 之 前 通过 指定 SPARK_CONF_DIR 值 的 方式 来 使 用 其 他 日 录 作 为 配置 文件 的 目录 。 

环境 变量 可 以 在 提交 程序 之 前 通过 export 的 方式 设置 ， 也 可 以 在 配置 文件 目录 下 的 
spark-env.sh 文 件 中 指定 ， 其 中 spark-env.sh 本 身 也 是 一 个 脚本 。 

常用 的 通用 配置 项 如 下 所 示 。 
O SPARK_LOCAL_IP。 绑 定 的 IP 地 址 。 
D SPARK_PUBLIC_DNS。Driver 程 序 使 用 的 DNS 服 务 器 。 
口 SPARK CLASSPATH。 人 额外 追加 的 classpath。 


更 多 环境 变量 可 以 参考 安装 路 径 下 的 文件 confspark-env.sh.template， 具 体 与 部 署 有 关 。 


3.5.8 Spark 属性 项 配置 


如 3.5.1 节 所 述 ，Spark 属 性 项 的 配置 可 以 在 3 个 地 方 进行 ， 优 先 级 从 低 至 高 依次 为 : 
口 spark-defaults.conf 

口 命令 行 参数 

O sparkConf 对 象 
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spark-defaults.conf 的 初始 值 可 以 从 spark-defaults.conf.template 复 制 而 来 ,示例 如 下 : 


# Example: 

spark.master spark://<master IP>:7077 

spark.driver.memory 5g 

Spark.executor.extraJavaOptions -XX:-«PrintGCDetails -Dkey-value -Dnumbers-"one two 
three" 


配置 中 时 间 相 关 值 的 格式 如 下 (不 区 分 大 小 写 )。 
口 毫秒 ， 比 如 2Sms。 

口 秒 ， 比 如 5s。 

口 分 钟 ， 比 如 10m 或 10min。 

口 小 时 ， 比 如 3h。 

口 天 ， 比 如 5d。 

口 年 ， 比 如 1y。 

配置 中 大 小 相关 值 的 格式 如 下 ( 同样 不 区 分 大 小 写 ): 
Q 1B 〈 字 节 ) 

O IK xx IKB (1KB=1024B) 

O IM 3 IMB (1 MB- 1024 KB) 

口 1G 或 1GB (1 GB- 1024 MB) 

Q ITzx&t ITB (1 TB- 1004 GB) 

口 IP 或 1PB ( 1PB- 1024 TB) 


提交 程序 时 ， 也 可 以 通过 命令 行 的 方式 指定 参数 ， 且 优先 级 大 于 配置 文件 ， 示 例如 下 : 


./bin/spark-submit --name "My app" --master local[4] --conf spark.shuffle.spill-false 


--conf "spark.executor.extraJavaOptions--XX:-«PrintGCDetails 
-XX:«PrintGCTimeStamps" myApp.jar 


在 Spark 程 序 中 也 可 以 指定 配置 项 ， 而 且 优先 级 最 高 ， 不 过 灵活 性 不 如 前 面 的 两 种 方式 ， 
次 改动 配置 需要 更 新 代码 并 编译 。Spark 程 序 中 通过 Sparkconf 对 象 来 设置 配置 项 ， 示 例如 下 : 


val conf = new SparkConf() 
.SetMaster("local[2]") 
.SetAppName ("CountingSheep") 
.Set("spark.executor.memory", "1g") 
val sc - new SparkContext (conf) 


常用 的 配置 项 参见 表 3-6。 
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表 3-6 ”常用 的 配置 项 


属性 名 默认 值 说 RH 
spark.app.name (none) ， Spark 程序 名 , 会 出 现在 Web 界 面 和 日 志 中 , 一般 通 过 命令 行 参 数 指定 或 
直接 在 程序 中 指定 
spark.driver.cores 1 cluster 模 式 下 Driver 程 序 使 用 的 core 的 数量 
spark.driver.maxResultSize 1GB 限制 Action 操 作 结 果 返 回 给 Driver 程 序 的 最 大 大 小 , 至 少 L MB ， 如 果 为 0 
表示 不 限制 。 如 果 超 过 了 这 个 值 ，Job 会 执行 失败 。 设 置 过 高 可 能 导致 


Driver 程 序 出 现 out-ofmemory 错 误 ， 注 意 参 考 spark.dqriver.memory 的 
取 值 以 及 JVM 

spark.driver.memory 512MB ”Driver 程 序 可 以 使 用 的 最 大 内 存 数量 

spark.executor.memory 512 MB — 每 个 执行 器 进程 可 以 使 用 的 最 大 内 存 数量 

Spark.master (none) ”集群 管理 器 地 址 


完整 的 属性 项 列表 可 以 参考 官方 文档 。 


3.5.4 查看 当前 的 配置 


Spark 程 序 的 Web 界 面 ( 详 见 http://<dqriver>:4040 ) 上 的 Environment 标 签 显示 了 所 有 配 
置 的 Spark 属 性 , 包括 通过 spark-defaults.conf、 命令 行 参数 以 及 sparkconf 对 象 设置 的 属性 ， 如 
3-5 所 示 。 其 他 没有 配置 的 属性 ， 可 以 参考 官方 文档 中 该 属性 的 默认 值 。 


Spark shell - Environme x 


e Cfi 192.168.56.101:4040/environment/ 


obs Stages Storag cutor 
Spa Ti Job age: orage | Environment | Executors 


一 


Environment 


Runtime Information 

Name Value 

Java Home usrljava/jdk1.7.0 80/jre 

Java Version 17.0, 80 (Oracle Corporation) 


Scala Version version 2.10.4 


Spark Properties 

Name Value 

spark app.id 1ocal-1443950416099 

spark. app name Spark shell 

spark driver.host 10.023 

spark driver port 34517 

spark executor.id driver 

spark externalBlockStore.folderName spark-40856826-7b32-4b17-82ef-0df22741ab89 
spark fileserver.uri http://10.0.2.3:38782 

spark jars 


spark. master loca] 


图 3-5”Environment 标 签 


3.5.5 配置 Spark 日 志 


日 志 配 置 是 另外 一 项 单独 的 配置 ， 它 使 用 配置 文件 目录 下 的 log4j.properties 作 为 配置 文件 ， 
详情 可 以 参考 默认 安装 路 径 下 的 confllog4j.properties.template， 你 可 以 复制 一 份 作 为 默认 配置 。 
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Spark 内 核 讲 解 


本 章 深 入 介绍 Spark 的 内 核实 现 ， 学 习 内 核 的 过 程 中 难免 涉及 源码 阅读 。 本 书 所 有 的 演示 都 


基于 Spark 1.4.1， 故 源码 也 基于 版 本 1.4.1。 读 者 可 以 下 载 下 来 阅读 ， 也 可 以 通过 浏览 器 直接 在 
GitHub 上 阅读 ， 地 址 是 https://github.com/apache/spark。 


4.1 Spark 核心 数据 结构 RDD 


RDD 是 Spark 最 重要 的 抽象 ,掌握 了 RDD ， 可 以 说 就 掌握 了 Spark 计 算 的 精髓 。 它 不 但 对 理解 


现 有 Spark 程 序 大 有 帮助 ， 也 能 提升 Spark 程 序 的 编写 能 力 。 


RDD 的 全 称 是 “弹性 分 布 式 数 据 集 ”( Resilient Distributed Dataset) 首先 , 它 是 一 个 数据 集 ， 


就 像 Scala 语 言 中 的 Array、List、Tuple、Set 、Map 也 是 数据 集合 一 样 ， 但 从 操作 上 看 RDD 最 
像 Array 和 List， 里 面 的 数据 都 是 平 铺 的 ， 可 以 顺序 遍历 。 而 且 Array、List 对 象 拥有 的 许多 


操作 RDD 对 象 也 有 ， 比 如 flatMap、map、filter、reduce、groupBy 等 。 


其 次 , RDD 是 分 布 存储 的 。 里 面 的 成 员 被 水 平 切割 成 小 的 数据 块 , 分 散在 集群 的 多 个 节点 上 ， 


便于 对 RDD 里 面 的 数据 进行 并 行 计 算 。 


最 后 ，RDD 的 分 布 是 弹性 的 ， 不 是 固定 不 变 的 。RDD 的 一 些 操 作 可 以 被 拆 分 成 对 各 数据 块 


直接 计算 ,不 涉及 其 他 节点 ， 比 如 map。 这 样 的 操作 一 般 在 数据 块 所 在 的 节点 上 直接 进行 ， 不 影 


响 RDD 的 分 布 , 除非 某 个 节点 故障 需要 转换 到 其 他 节点 上 。 但 是 在 有 些 操作 中 ,只 访问 部 分 数据 


块 是 无 法 完成 的 ,必须 访问 RDD 的 所 有 数据 块 。 比 如 groupBy, 在 做 groupBy 之 前 完全 不 知道 每 


Ak 


ey 的 分 布 ， 必 须 遍 历 RDD 的 所 有 数据 块 ， 将 具有 相同 key 的 元 素 汇 聚 在 一 起 ， 这 样 RDD 的 分 


fri 


完全 重组 ， 而 且 数 量 也 可 能 发 生变 化 。 此 外 ，RDD 的 弹性 还 表现 在 高 可 靠 性 上 。 

此 外 ，RDD 还 具有 如 下 特点 。 

口 RDD 是 只 读 的 ， 一 旦 生成 ， 内 容 就 不 能 修改 了 。 这 样 的 好 处 是 让 整个 系统 的 设计 相对 简 
单 ， 比 如 并 行 计算 时 不 用 考虑 数据 互 斥 的 问题 。 

口 RDD 可 指定 缓存 在 内 存 中 。 一 般 计 算 都 是 流水 式 生 成 、 使 用 RDD， 新 的 RDD 咎 成 之 后 ， 
旧 的 不 再 使 用 ,并 被 Java 虚 拟 机 回收 掉 。 但 如 果 后 续 有 多 个 计算 依赖 某 个 RDD, 我 们 可 以 
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让 这 个 RDD 缓 存在 内 存 中 ， 避 免 重复 计算 。 这 个 特性 在 机 吕 学习 等 需要 反复 迭代 的 计算 
场景 下 对 性 能 的 提升 尤其 明显 。 

口 RDD 可 以 通过 重新 计算 得 到 。RDD 的 高 可 靠 性 不 是 通过 复制 来 实现 的 ， 而 是 通过 记录 足 
够 的 计算 过 程 ， 在 需要 时 ( 比如 因为 节点 故障 导致 内 容 失效 ) 重新 从 头 或 从 某 个 镜像 重 
新 计算 来 恢复 的 。 


4.1.1 RDD 的 定义 


一 个 RDD 对 象 ， 包 含 如 下 5 个 核心 属性 。 

口 一 个 分 区 列表 ， 每 个 分 区 里 是 RDD 的 部 分 数据 ( 或 称 数据 块 )。 

a 一 个 依赖 列表 ， 存 储 依赖 的 其 他 RDD 。 

a 一 个 名 为 compute 的 计算 函数 ， 用 于 计算 RDD 各 分 区 的 值 。 

口 分 区 器 (可 选 )， 用 于 键 / 值 类 型 的 RDD， 比 如 某 个 RDD 是 按 散 列 来 分 区 。 

a 计算 各 分 区 时 优先 的 位 置 列表 (可 选 )， 比 如 从 HDFS 上 的 文件 生成 RDD 时 ，RDD 分 区 的 
位 置 优 先 选择 数据 所 在 的 节点 ， 这 样 可 以 避免 数据 移动 带 来 的 开销 。 
下 面 我 们 直接 来 看 看 这 5 个 属性 的 具体 代码 定义 。 

分 区 与 依赖 : 


// 依赖 关系 定义 在 一 个 Seq 数 据 集 中 ， 类 型 是 Dependency 

// 有 检查 点 时 ， 这 些 信息 会 被 重 写 ， 指 向 检查 点 

private var dependencies_ : Seq[Dependency[ ]] = null 

// 分 区 定义 在 Array 数 据 中 ， 类 型 是 Partition， 没 用 Seq， 这 主要 考虑 到 随时 需要 通过 下 标 来 访问 或 更 新 
// 分 区 内 容 ， 而 dependencies_ 使 用 Seq 是 因为 它 的 使 用 场景 一 般 是 取 第 一 个 成 员 或 遍历 


— 


Gtransient private var partitions  : Array[Partition] = null 

计算 函数 : 

/** 

* cormpute 方 法 由 子 类 来 实现 ， 对 输入 的 RDD 分 区 进行 计算 

xA 

def compute(split: Partition, context: TaskContext): Iterator[T] 
分 区 器 : 

/xx 可 选 ， 子 类 可 以 重 写 以 指定 新 的 分 区 方式 。Spark 支 持 两 种 分 区 方式 : Hash 和 Range*/ 
Gtransient val partitioner: Option[Partitioner] = None 
优先 计算 位 置 : 

/** 

* 可 选 ， 子 类 可 以 指定 分 区 优先 的 位 置 ， 比 如 HadoopRDD 会 重 写 此 方法 ， 让 分 区 尽 可 能 与 数据 在 相同 的 节点 上 
*/ 

protected def getPreferredLocations(split: Partition): Seq[String] = Nil 
/** 


* RDD 提 供 统一 的 调用 方法 ， 统 一 处 理 检查 点 问题 
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E 
final def preferredLocations(split: Partition): Seq[String] = { 
checkpointRDD.map (_.getPreferredLocations (split)).getOrElse { 
getpreferredLocations (split) 
j 
} 


而 且 ，Spark 从 第 一 个 开源 版 本 0.3-scala-2.8 开 始 , 到 目前 最 新 的 1.4.1, RDD 一 直 使 用 这 5 个 核 
属性 ， 没 有 增加 ， 也 没 减 少 。 可 以 说 ， 这 就 是 Spark 计 算 的 基因 。 
Spark 调 度 和 计算 都 基于 这 5 个 属性 , 各 种 RDD 都 有 自己 实现 的 计算 , 用 户 也 可 以 方便 地 实现 
自己 的 RDD ， 比 如 从 一 个 新 的 存储 系统 中 读 取 数据 。 

图 4-1 显 示 了 RDD 及 其 常见 子 类 的 继承 关系 。 


ce 


MapPartitions CoalescedRDD HashPartitioner 


RDD 
图 4-1 RDD 及 其 常见 子 类 的 继承 关系 


RDD 完 整 的 定义 位 于 源 文件 : https://github.com/apache/spark/blob/v1.4.1/core/src/main/scala/ 
org/apache/spark/rdd/RDD.scala ; 


每 个 Transformation 操 作 都 会 生成 一 个 新 的 RDD ， 不 同 操作 也 可 能 返回 相同 类 型 的 RDD， 只 


是 计算 方法 等 参数 不 同 。 比如 , map, flapMap, filter 这 3 个 操作 都 会 生成 MapPartitionsRDD 
类 型 的 RDD: 


/** 
* Transformation: map 
x 
def map[U: ClassTag](f: T => U): RDD[U] = withScope ( 
val cleanF = sc.clean(f) 


new MapPartitionsRDD[U, T](this, (context, pid, iter) -» iter.map(cleanF)) 


/** 
* Transformation: flatMap 
*/ 
def flatMap[U: ClassTag](f: T -» TraversableOnce[U]): RDD[U] = withScope ( 


val cleanF = sc.clean(f) 
new MapPartitionsRDD[U, T] (this, (context, pid, iter) => iter.flatMap(cleanF)) 


/** 
* Transformation: filter 
E 
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def filter(f: T => Boolean): RDD[T] = withScope ( 
val cleanF - sc.clean(f) 
new MapPartitionsRDD[T, T]( 
this, 
(context, pid, iter) -» iter.filter(cleanF), 
preservesPartitioning - true) 


4.1.2 RDD 的 Transformation 


RDD 的 Transformation 是 指 由 一 个 RDD 生 成 新 RDD 的 过 程 ， 比 如 前 面 使 用 的 flapMap 、map、 
filter 操 作 都 返回 一 个 新 的 RDD 对 象 ， 类 型 是 MapPartitionsRDD， 它 是 RDD 的 子 类 。 


所 有 的 RDD Transformation 都 只 是 生成 了 RDD 之 间 的 计算 关系 以 及 计算 方法 ， 并 没有 进行 真 
正 的 计算 。 下 面 还 是 以 WordCount 为 例 进 行 介 绍 : 

val textFile = sc.textFile("README.md") 

val words = textFile.flatMap(line => line.split(" ")) 

val wordPairs - words.map(word -» (word, 1)) 


val wordCounts = wordPairs.reduceByKey((a, b) => a + b) 
wordCounts.collect() 


每 一 个 操作 都 会 生成 一 个 新 的 RDD 对 象 ( 其 类 型 为 RDD 子 类 ), 它们 按照 依赖 关系 串 在 一 起 ， 
像 一 个 链表 ( 其 实 是 DAG 的 简化 形式 )， 每 个 对 象 有 一 个 指向 父 节 点 的 指针 ， 以 及 如 何 从 父 节 点 
通过 计算 生成 新 对 象 的 信息 。 图 4-2 显 示 了 WordCount 计 算 过 程 中 的 RDD Transformation 生 成 的 


RDD 对 象 的 依赖 关系 。 
id 
文件 README.md 


words: MapPartitionsRDD 
func - | .split(...) 
wordPairs: MapPartitionsRDD 


fünG. S. c» (Qo) 


wordCounts: Shur El m 
reduce 操 作 ， 值 相 加 


图 4-2 RDD Transformation 生 成 的 RDD 对 象 的 依赖 关系 


除了 RDD 创 建 过 程 会 生成 新 的 RDD 外 ，RDD Transformation 也 会 生成 新 的 RDD ， 并 且 设 置 与 
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前 一 个 RDD 的 依赖 关系 。 结 合 每 一 个 RDD 的 数据 和 它们 之 间 的 依赖 关系 ， 每 个 RDD 都 可 以 按 依 
赖 链 追 溯 它 的 祖先 ， 这 些 依赖 链接 就 是 RDD 重 建 的 基础 。 因 此 ， 理 解 了 RDD 依 赖 ， 也 就 理解 了 
RDD 的 重建 容错 机 制 。 

下 面 以 map 为 例 进 行 介绍 。 实 际 上 ， 这 就 是 生成 了 一 个 新 的 RDD 对 象 ， 其 类 型 是 
MapPartitionsRDD ( 它 是 RDD 的 子 类 ): 


def map[U: ClassTag](f: T => U): RDD[U] = withScope ( 
val cleanF - sc.clean(f) 
new MapPartitionsRDD[U, T](this, (context, pid, iter) -» iter.map(cleanF)) 


} 
MapPartitionsRDD 的 定义 如 下 : 


private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag] ( 

prev: RDDI[T], 

f: (TaskContext, Int, Iterator[T]) => Iterator[U], // (TaskContext, partition 
index, iterator) 

preservesPartitioning: Boolean - false) 

extends RDD[U] (prev) ( 


override val partitioner - if (preservesPartitioning) 
firstParent[T].partitioner else None 4 
override def getPartitions: Array[Partition] = firstParent[T].partitions 


override def compute(split: Partition, context: TaskContext): Iterator[U] - 
f(context, split.index, firstParent[T].iterator(split, context)) 


} 

可 以 看 到 ，MapPartitionsRDD 最 主要 的 工作 是 用 变量 f 保 存 传 人 的 计算 函数 ， 以 便 
compute 调 用 它 来 进行 计算 。 其 他 4 个 重要 属性 基本 保持 不 变 : 分 区 和 优先 计算 位 置 没 有 重新 定 
义 ， 保 持 不 变 ， 依 赖 关 系 默认 依赖 调用 的 RDD ， 分 区 器 优先 使 用 上 一 级 RDD 的 分 区 器 ， 和 否则 为 
Noneo 

在 Spark 中 ，RDD 是 有 依赖 关系 的 ， 这 种 依赖 关系 有 两 种 类 型 。 


Q 窄 依赖 。 依 赖 上 级 RDD 的 部 分 分 区 。 
口 Shuffle 依 赖 。 依 赖 上 级 RDD 的 所 有 分 区 。 


对 应 类 的 关系 如 图 4-3 所 示 。 
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Dependency 


依赖 关系 基 类 
NarrowDependency ShuffleDependency 
^ fic i Shuffle 依 赖 
OneToOneDependency RangeDependency 


图 4-3 ”对 应 类 的 关系 


之 所 以 这 么 区 分 依赖 关系 ,是 因为 它们 之 间 有 本 质 的 区 别 。 使 用 窄 依赖 时 ， 可 以 精确 知道 依 
赖 的 上 级 RDD 的 分 区 。 一 般 情况 下 ， 会 选择 与 自己 在 同一 节点 的 上 级 RDD 分 区 ， 这 样 计算 过 程 
都 在 同一 节点 进行 ， 没 有 网 络 IO 开 销 ， 非 常 高 效 ， 常 见 的 map、flatMap、filter 操 作 都 是 这 
一 类 。 而 Shuffle 依 赖 则 不 同 , 无 法 精确 定位 依赖 的 上 级 RDD 的 分 区 ， 相当 于 依赖 所 有 分 区 ( 想 想 
reduceByKey 计 算 , 需要 对 所 有 的 key 重 新 排列 )。 计 算 时 涉及 所 有 节点 之 间 的 数据 传输 ， 开 销 
巨大 。 所 以 ， 以 Shufnle 依 赖 为 分 隔 ，Task 被 分 成 Stage， 方 便 计 算 时 的 管理 。 

RDD 仔 细 维 护 着 这 种 依赖 关系 和 计算 方法 ， 使 得 通过 重新 计算 来 恢复 RDD 成 为 可 能 。 当 然 ， 
这 也 不 是 万 能 的 。 如 果 依 赖 链条 太 长 ， 那 么 通过 计算 来 恢复 的 代价 就 太 大 了 。 所 以 ，Spark 又 提 
供 了 一 种 叫 检查 点 的 机 制 。 对 于 依赖 链条 太 长 的 计算 ， 对 中 间 结 果 存 一 份 快照 ,这 样 就 不 需要 从 
头 开始 计算 了 。 比 如 ， 第 6 章 将 要 提 到 的 Spark Streaming 流 式 计 算 ， 程 序 需要 7 x 24 小 时 运行 ， 依 
赖 链接 会 无 穷 扩 充 ， 如 果 没 有 检查 点 机 制 ， 容 错 将 完全 没有 意义 。 


4.1.3 RDD 的 Action 


RDD 的 Action 是 相对 Transformation 的 另 一 种 操作 。Transformation 代 表 计 算 的 中 间 过 程 ， 从 
一 个 RDD 生 成 新 的 RDD; 而 Action 代 表 计 算 的 结束 ， 一 次 Action 调 用 之 后 ， 不 再 生成 新 的 RDD， 
结果 返回 到 Driver 程 序 。 

鉴于 Action 具 有 这 样 的 特点 ,所 以 Action 操 作 是 不 可 以 在 RDD Transformation 内 部 调用 的 。 比 
如 ， 下 面 的 调用 是 不 允许 的 : 


rddi.map(x => rdd2.values.count() * x) 
Transformation 只 是 建立 计算 关系 ， 而 Action 才 是 实际 的 执行 者 。 每 个 Action 都 会 调用 
SparkContext 的 runJob 方 法 向 集群 正式 提交 请 求 , 所 以 每 个 Action 对 应 一 个 Job。 比如 在 count 
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的 实现 中 ， 先 提交 Job 去 集群 上 运行 ， 返回 结 果 到 Driver 程 序 ， 然 后 调用 sum 方 法 获取 数量 : 


/** 
* 返回 RDD 中 的 元 素数 RDD 
*/ 
def count(): Long = sc.runJob(this, Utils.getIteratorSize ).sum 
4.1.4 Shuffle 


Shuffle 的 概念 来 自 Hadoop 的 MapReduce 计 算 过 程 。 当 对 一 个 RDD 的 某 个 分 区 进行 操作 而 无 法 
精确 知道 依赖 前 一 个 RDD 的 哪个 分 区 时 ， 依 赖 关 系 变 成 了 依赖 前 一 个 RDD 的 所 有 分 区 。 比 如 ， 
几乎 所 有 <key，value> 类 型 的 RDD 操 作 ， 都 涉及 按 key 对 RDD 成 员 进 行 重 组 ， 将 具有 相同 key 
但 分 布 在 不 同 节点 上 的 成 员 聚 合 到 一 个 节点 上 ， 以 便 对 它们 的 value 进 行 操作 。 这 个 重组 的 过 程 
就 是 Shuffle 操 作 。 因 为 Shuffle 操 作 会 涉及 数据 的 传输 ， 所 以 成 本 特别 高 ， 而 且 过 程 复杂 。 

下 面 以 redquceByKey 为 例 来 介绍 。 在 进行 educe 操 作 之 前 ， 单词“Spark” 可 能 分 布 在 不 
同 的 机 需 节 点 上 ， 此 时 需要 先 把 它们 汇聚 到 一 个 节点 上 ， 这 个 汇聚 的 过 程 就 是 Shuffle ， 如 图 4-4 
所 示 。 


reduceByKey 


reduce 


ie 


(Apache, 1) (Apache, 1) (Apache, 1) 


(Spark, 1) (Spark, 1) 


图 4-4_ Shuffle 操作 


Shuffle 是 一 个 非常 消耗 资源 的 操作 , 除了 会 涉及 大 量 网 络 IO 操作 并 使 用 大 量 内 存 外 , 还 会 在 
磁盘 上 生成 大 量 临时 文件 , 以 避免 错误 恢复 时 重新 计算 。 因 为 Shuffle 操 作 的 结果 其 实 是 一 次 调度 
的 Stage 的 结果 ， 而 一 次 Stage 包 含 许 多 Task， 缓 存 下 来 还 是 很 划算 的 。Shuffle 使 用 的 本 地 磁盘 目 
录 由 spark.1local.dir 属 性 项 指定 。 
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4.2 SparkContext 


SparkContext 是 Spark 程 序 最 主要 的 人口 , 用 于 与 Spark 集 群 连接 。 与 Spark 集 群 的 所 有 操作 ， 


都 通过 sparkcontext 来 进行 。 使 用 它 ， 可 以 在 Spark 集 群 上 创建 RDD 、 计 数 器 以 及 广播 


所 有 的 Spark 程 序 都 必须 创建 一 个 sparkcontext 对 象 。 进 行 流 式 计算 时 
StreamingContext ， 以 及 进行 SQL 计算 时 使 用 的 soLcontext ， 也 会 关联 一 个 
SparkContext 或 者 隐 式 创建 一 个 SparkContext。 


SparkContext 类 的 定义 位 于 core/src/main/scala/org/apache/spark/SparkContext.scala。 


4.2.1 SparkConf 配置 


初始 化 Sparkcontext 时 ,只 需要 一 个 Sparkconf 配 置 对 象 作为 参数 即 可 。sparkc 
类 的 定义 如 下 : 


class SparkContext (config: SparkConf) 


而 且 ， 在 类 定义 中 ， 还 提供 了 免 参数 的 构造 方法 ， 它 会 自动 生成 一 个 默认 的 配置 : 


< 
变量 。 


使 用 的 
现 有 的 


ontext 


/** 
* 使 用 默认 属性 创建 一 个 SparkContext 对 象 
A 
def this() = this(new SparkConf()) 
当然 ，Sparkcontext 也 提供 了 更 多 的 构造 函数 来 方便 我 们 一 次 性 初始 化 更 多 常用 选项 ， 比 


如 可 以 指定 master 和 appName: 


/* 
* 另外 的 构造 函数 ， 直 接 设 置 一 个 常用 属性 

* 参数 说 明 : 

* master: 集群 地 址 ， 上 比如 spark://host:port、local[4] 
* appName: 程序 名 ,会 显示 在 集群 Web UI 上 

* sparkHome: Spark 在 机 器 上 的 安装 目录 


jars: 给 集群 添加 额外 的 JAR 文 件 集合 ， 可 以 本 地 文件 ， 或 者 是 HDFS、HTTP、HTTPS、FTP 等 类 型 的 URL 


* environment: 环境 变量 


def this( 

master: String, 

appName: String, 
sparkHome: String = null, 


jars: Seq[String] - Nil, 

environment: Map[String, String] - Map(), 
preferredNodeLocationData: Map[String, Set[SplitInfo]] = Map()) = 
{ 

this(SparkContext.updatedConf (new SparkConf(), master, 


appName, sparkHome, jars, environment)) 
this.preferredNodeLocationData - preferredNodeLocationData 
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保存 配置 的 sparkconf 类 的 定义 在 相同 目录 下 的 SparkConf.scala 文 件 中 ， 它 最 主要 的 成 员 是 
一 个 散 列 表 ， 其 中 key 和 value 的 类 型 都 是 字符 串 类 型 . 


private val settings = new ConcurrentHashMap[String, Stringl() 


虽然 SparkCconf 提 供 了 一 些 简 单 的 接口 来 进行 配置 ， 但 其 实 所 有 的 配置 都 以 <kev，value> 
对 的 形式 保存 在 settings 中 ， 比 如 设置 master 方 法 其 实 就 是 设置 了 配置 项 spark.master: 


/** 
* 设置 Master 地 址 ， 比 如 "local[4]" 指 向 本 地 或 "spark://master:7077" 指 向 一 个 Spark Standalone 
集群 
ra 
def setMaster(master: String): SparkConf - ( 
set("spark.master", master) 


} 


所 以 ,使 用 配置 文件 中 的 spark .master 配 置 项 ,或 者 参数 列表 中 的 --master 选 项 ,或 者 
setMaster () 方 法 ， 都 可 以 设置 Master 地 址 ， 只 是 它们 的 优先 级 不 同 。 


每 个 JVM 只 人 允许 启动 一 个 sparkcontext ， 和 否则 默认 会 抛 出 异常 ， 比 如 在 通过 spark-shell 启 
动 的 交互 式 编程 环境 下 ， 已 经 默认 创建 了 一 个 名 为 sc 的 Sparkcontext 对 象 ， 如 果 学 习 Spark 
Streming 编 程 时 ， 按 照 官方 文档 中 的 代码 直接 创建 一 个 St reamingContext 对 象 ， 则 会 出 错 : 


// 刚 启 动 spark-shell 时 ， 直 接 运 行 下 面 的 代码 会 出 错 !11! 

import org.apache.spark.SparkConf 

import org.apache.spark.streaming.{Seconds, StreamingContext} 

val conf = new SparkConf().setMaster("local[2]").setAppName ("NetworkWordCount") 
val ssc = new StreamingContext (conf, Seconds(1)) 


一 个 简单 的 解决 办 法 是 先 停止 默认 的 sc: 


sc.stop() 


当然 ,也 可 以 通过 设置 spark.driver.allowMultipleContexts 为 true 来 忽略 这 个 错误 ， 
这 个 配置 项 对 应 的 处 理 逻 辑 如 下 所 示 : 


// 如 果 为 true， 当 多 个 SparkContexts 活 动 时 ， 只 是 打印 警告 日 志 ， 而 不 是 抛 出 异常 中 止 计 算 
private val allowMultipleContexts: Boolean = 
config.getBoolean("spark.driver.allowMultipleContexts", false) 


4.2.2 ”初始 化 过 程 
SparkContext 在 构造 的 过 程 中 , 已 经 完成 了 各 项 服务 的 启动 。 因 为 Scala 语 法 的 特点 ,所 有 
构造 函数 都 会 调用 默认 的 构造 函数 ， 而 默认 构造 函数 的 代码 直接 在 类 定义 中 。 


除了 初始 化 各 类 配置 日 志 之 外 ,最 重要 的 初始 化 操作 之 一 是 局 动 Task 调 度 侨 和 DAG 调 度 器 ， 
相关 代码 如 下 : 
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// 创建 并 启动 Task 调 度 器 
val (sched, ts) = SparkContext 
_schedulerBackend = sched 
.taskScheduler = ts 
.dagScheduler = new DAGSchedul 
.heartbeatReceiver.send(TaskSc 


.createTaskScheduler(this, master) 


er(this) 
hedulerIsSet) 


// 创建 DAG 调 度 器 ， 并 引用 之 前 创建 的 Task 调 度 器 之 后 ， 


// 再 启动 Task 调 度 器 
.taskScheduler.start() 


DAG 调 度 与 Task 调 度 的 区 别 是 ，DAG 是 最 高 层级 的 调度 ， 为 每 个 Job 绘 制 出 一 个 有 向 无 环 图 
(简称 DAG ), 跟踪 各 Stage 的 输出 ,计算 完成 Job 的 最 短路 径 ， 并 将 Task 提 交 给 Task 调 度 器 来 执行 。 


而 Task 调 度 器 只 负责 接受 DAG 调 度 器 
初始 化 必须 在 Task 调 度 器 之 后 。 


请求 ， 负 责 Task 的 实际 调度 执行 ， 所 以 DAGScheduler 的 


DAG 与 Task 这 种 分 离 设计 的 好 处 是 ，Spark 可 以 灵活 设计 自己 的 DAG 调 度 ， 同 时 还 能 与 其 人 


资源 调度 系统 结合 ， 比 如 YARN、Mes 


Task 调 度 器 本 身 的 创建 在 createTaskscheduler 捕 数 中 进行 ,根据 Spark 程 序 提 交 时 指定 的 


EE 


7 


OSo 


不 同 模式 ， 可 以 启动 不 同类 型 的 调度 器 。 并 且 出 于 容错 考虑 ，createTaskSchedquler 会 返回 一 
主 一 备 两 个 调度 器 。 以 YARN cluster 模 式 为 例 ， 主 、 备 调度 器 对 应 不 同类 的 实例 ， 但 是 加 载 了 相 
同 的 配置 。 下 面 摘录 了 createTaskSscheaquler 国 数 的 相关 实现 


private def createTaskScheduler( 


sc: SparkContext, 


master: String): (SchedulerBackend, TaskScheduler) - ( 


// 省 略 部 分 代码 …… 
master match { 
// Ak case. 


case "yarn-standalone" 


"yarn-cluster" => 


if (master -- "yarn-standalone") ( 


logWarning/("N" 


yarn-standaloneN" is deprecated as of Spark 1.0. 


Use V"yarn-cluster'" instead.") 


} 
// 主 调度 器 


val scheduler = try { 


val clazz - Class.forName("org.apache.spark.scheduler. 
cluster.YarnClusterScheduler") 


val cons - clazz. 


getConstructor(classOf[SparkContext]) 


cons.newInstance(sc).asInstanceOf[TaskSchedulerImpl] 


l scaboh 4 


case e: Exception -» ( 
throw new SparkException("YARN mode not available ?", e) 


} 

} 

// 备用 调度 器 

val backend = try { 
val clazz - 


Class.forName("org.apache.spark.scheduler.cluster. 
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YarnClusterScheduler Backend") 
val cons = clazz.getConstructor(classOf[TaskSchedulerImpl], 
classOf[SparkContext]) 
cons.newlInstance(scheduler, sc).asInstanceOf [CoarseGrainedScheduler 
Backend] 
} catch- f 
case e: Exception => ( 
throw new SparkException("YARN mode not available ?", e) 
} 
) 
Sscheduler.initialize(backend) 
(backend, scheduler) 


// 省 略 部 分 case 代 码 …… 


4.2.3 其 他 功能 接口 


Sparkcontext 除 了 可 以 初始 化 环境 , 连接 Spark 集 群 外 , 还 提供 了 非常 多 的 功能 人 口 , 具体 
如 下 。 
口 创建 RDD。 所 有 的 创建 RDD 的 方法 都 在 Sparkcontext 中 定义 ， 比 如 parallelize 和 
textFilenewAPIHadoopFile,; 
口 RDD 持 久 化 。RDD 的 持久 化 操作 方法 persistRDD、unpersistRDD 也 在 SparkContext 
中 定义 。 
口 创建 共享 变量 。 包 括 计数 顺和 广播 变量 。 
O stop()。 停 止 SparkContext。 
口 runJob。 提 交 RDD Action 操 作 ， 这 是 所 有 调度 执行 的 入 口 。 


4.3 ”DAG 调度 


SparkContext 在 初始 化 时 , 创建 了 DAG 调 度 与 Task 调 度 来 负责 RDD Action 操 作 的 调度 执行 。 


4.3.1 DAGScheduler 


DAGScheduler 人 负责 Spark 的 最 高 级 别 的 任务 调度 ， 调 度 的 粒度 是 Stage， 它 为 每 个 Job 的 所 有 
Stage 计 算 一 个 有 向 无 环 图 ， 控 制 它 们 的 并 发 ， 并 找到 一 个 最 佳 路 径 来 执行 它们 。 有 具体 的 执行 过 
程 是 将 Stage 下 的 Task 集 提交 给 Taskscheduler 对 象 ， 由 它 来 提交 到 集群 上 去 申请 资源 并 最 终 完 
成 执行 。 

DAGScheduler 的 定义 位 于 scheduler/DAGScheduler.scala 中 。 下 面 是 它 的 类 声明 ， 初 始 化 时 
除了 需要 一 个 sparkcontext 对 象 外 ,最 重要 的 是 需要 输入 一 个 Taskscheduler 对 象 来 负责 Task 
的 执行 : 
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private[spark] 

class DAGScheduler( 
private[scheduler] val sc: SparkContext, 
private[scheduler] val taskScheduler: TaskScheduler, 
listenerBus: LiveListenerBus, 
mapOutputTracker: MapOutputTrackerMaster, 
blockManagerMaster: BlockManagerMaster, 
env: SparkEnv, 
clock: Clock - new SystemClock()) 

extends Logging ( 


} 


1. runJob 过 程 


所 有 需要 执行 的 RDD Action, 都 会 调用 sparkContext .runJob 来 提交 任务 , 而 sparkContext . 
runJob 调 用 的 是 DAGScheduler .runJob。 下面 是 runJob 的 定义 : 


def runJob[T, U]( 
rdd: RDD[T], 
func: (TaskContext, Iterator[T]) => U, 
partitions: Seq[Int], 
callSite: CallSite, 
allowLocal: Boolean, 
resultHandler: (Int, U) -» Unit, 
properties: Properties): Unit - ( 
val start - System.nanoTime 
val waiter - submitJob(rdd, func, partitions, callSite, allowLocal, 
resultHandler, properties) 
waiter.awaitResult() match { 
case JobSucceeded => 
logInfo("Job $d finished: $s, took %f s".format 
(waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9)) 
case JobFailed(exception: Exception) => 
logInfo("Job $d failed: $s, took $f s".format 
(waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9)) 
throw exception 


} 


runJob 调 用 submitJob 提 交 任 务 ， 并 等 待 任务 结束 。 

任务 提交 后 的 处 理 过 程 大 概 如 下 。 

(1) supmitJob 生 成 新 的 Job ID， 发 送 消 息 Jobsubmitted。 

(2) DAG 收 到 Jobsubmitteq 消 息 ， 调 用 handleJobSsubmitteqd 来 处 理 。 


(3) handleJobsSubmitted 创 建 一 个 Resultstage ， 并 使 用 submitstage 来 提交 这 个 
ResultStage。 


上 面 的 过 程 看 起 来 没完 ， 实 际 上 大 的 过 程 已 经 结束 了 ， 猫 腻 在 submitSstage 中 。Spark 的 执 
行 过 程 是 “懒惰 ”(lazy ) 的 ， 这 在 这 里 得 到 了 完整 的 体现 。 任 务 提交 时 ， 不 是 按 Job 的 先后 顺序 
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提交 的 , 而 是 倒序 的 。 每 个 Job 的 最 后 一 个 操作 是 Action 操 作 , DAG 把 这 最 后 的 Action 操 作 当 作 一 
个 Stage, 首先 提交 , 然后 逆向 逐 级 递归 填补 缺少 的 上 级 Stage， 从 而 生成 一 棵 实现 最 后 Action 操 作 
的 最 短 的 ( 因为 都 是 必须 的 ) 有 向 无 环 图 ， 然 后 再 从 头 开始 计算 。 


submitStage 方 法 的 实现 代码 如 下 所 示 : 


// 提交 Stage 之 前 ， 先 递归 提交 所 缺失 的 父 Stage 
private def submitStage(stage: Stage) ( 
val jobId - activeJobForStage(stage) 
if (jobId.isDefined) { 
logDebug("submitStage(" + stage + ")") 


if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) 
( 
val missing - getMissingParentStages(stage).sortBy( .id) 
logDebug("missing: " + missing) 
if (missing.isEmpty) ( 
// 仅 在 所 有 缺失 的 父 Stage 邦 提交 执行 ?3， 才 开始 提交 自己 
logInfo("Submitting " + stage + " (" + stage.rdd + "), 
which has no missing parents") 
submitMissingTasks(stage, jobId.get) 
j else ( 
for (parent «- missing) ( 
submitStage (parent) 
} 


waitingStages += stage 


abortStage(stage, "No active job for stage " + stage.id) 


可 以 看 到 , ixi — 4-35 n] e HR SERE, 先 查 找 所 有 缺失 的 上 级 Stage 并 提交 , 待 所 有 上 级 Stage 
都 提交 执行 了 ， 才 轮 到 执行 当前 Stage 对 应 的 Task。 


查找 上 级 Stage 的 过 程 ， 其 实 就 是 递归 向 上 遍历 所 有 RDD 依 赖 列表 并 生成 Stage 的 过 程 ， 代 码 
如 下 所 示 : 


private def getMissingParentStages(stage: Stage): List[Stage] = ( 
val missing - new HashSet[Stage] 
val visited - new HashSet[RDD[ ]] 
// 这 里 手工 维护 一 个 堆栈 ， 吕 免 递 归 访 问 过 程 中 的 栈 溢出 错误 
val waitingForVisit = new Stack[RDD[ ]] 
def visit(rdd: RDD[ ]) { 
if (!visited(rdd)) ( 
visited += rdd 
if (getCacheLocs(rdd).contains(Nil)) ( 
for (dep «- rdd.dependencies) ( 
dep match { 
case shufDep: ShuffleDependency[ , ., .] => 
val mapStage - getShuffleMapStage(shufDep, stage.jobId) 
if (!mapStage.isAvailable) ( 
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missing += mapStage 
j 
case narrowDep: NarrowDependency[ ] => 
waitingForVisit.push(narrowDep.rdd) 


j 
j 
waitingForVisit.push(stage.rdd) 
while (waitingForVisit.nonEmpty) ( 
visit (waitingForVisit.pop()) 
j 
missing.toList 
} 
熟悉 数据 结构 的 读者 不 难 发 现 , 遍历 的 过 程 是 非 递归 的 层 序 遍历 (不 是 前 序 、 中 序 或 后 序 )， 


使 用 了 一 个 堆栈 来 协助 遍历 ， 而 且 保 证 了 层 序 的 顺序 与 DAG 中 的 依赖 顺序 一 致 。 
2. Stage 


值得 注意 的 是 ， 仅 对 依赖 类 型 是 shufflepependqency 的 RDD 操 作 创 建 Stage， 其 他 的 RDD 
操作 并 没有 创建 Stage。 这 里 我 们 补 一 下 Stage 的 概念 。 前 面 讲 RDD 时 提 到 过 ，RDD 操 作 有 两 类 依 
赖 : 一 类 是 窄 依赖 ， 一 个 RDD 分 区 只 依赖 上 一 个 RDD 的 部 分 分 区 ， 而 且 这 些 分 区 都 在 相同 的 节 
点 上 ; 另外 一 类 依赖 是 Shuffle 依 赖 , 一 个 RDD 分 区 可 能 会 依赖 上 一 级 RDD 的 全 部 分 区 , 一 个 典型 
的 例子 是 gsroupBy 聚 合 操作 。 这 两 类 操作 在 计算 上 有 明显 的 区 别 , 罕 依 赖 都 在 同一 个 节点 上 进行 
计算 ,而 Shuffle 依 赖 跨越 多 个 节点 ,甚至 所 有 涉及 的 计算 节点 。 因 此 ，DAG 在 调度 时 ,对 于 在 相 
同 节 点 上 进行 的 Task 计 算 ， 会 合并 为 一 个 Stage。 

所 以 ， 只 有 两 种 情况 下 会 生成 新 的 Stage: 一 类 是 依赖 类 型 是 Shuffle 的 Transformation 操 作 会 
触发 生成 新 的 Stage， 几 乎 所 有 的 ByKey 操 作 都 是 ,比如 redauceByKey 和 groupByKey; 男 外 一 类 
是 Action 操 作 ， 是 为 了 生成 默认 的 Stage， 这 样 即便 没有 Shuffle 类 操作 ， 保 证 至 少 有 一 个 Stage。 


总 结 一 下 ， 各 Stage 之 间 以 Shuffle 为 分 界线 。 


4.3.2 TaskScheduler 


相对 DAGScheduler 而 言 , TaskScheduler 是 低级 别 的 调度 接口 ,允许 实现 不 同 的 Task 调 度 
器 。 目 前 ， 已 经 实现 的 Task 调 度 器 除了 自 带 的 以 外 ， 还 有 YARN 和 Mesos 调 度 顺 。 每 个 
TaskScheduler 对 象 只 服务 于 一 个 SparkContext 的 Task 调度 > TaskScheduler 从 
DAGSscheduler 的 每 个 Stage 接 收 一 组 Task,， 并 负责 将 它们 发 送 到 集群 上 ,运行 它们 ， 如 果 出 错 还 
会 重 试 ， 最 后 返回 消息 给 DAGScheduler。 

TaskSchequler 的 主要 接口 包括 一 个 钩子 接口 (也 称 hook， 表 示 定 义 好 之 后 ， 不 是 用 户主 
动 调用 的 )， 被 调用 的 时 机 是 在 初始 化 完成 之 后 和 调度 启动 之 前 : 
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def postStartHook() ( ) 
还 有 启动 和 停止 调度 的 命令 : 


def start(): Unit 
def stop(): Unit 


此 外 ， 还 有 提交 和 撤销 Task 集 的 命令 : 


def submitTasks(taskSet: TaskSet): Unit 


def cancelTasks(stageld: Int, interruptThread: 


Boolean) 


Spark SQL 与 数据 仓库 


从 Spark 1.3 开 始 ，Spark SQL 正式 发 布 。 而 之 前 的 另 一 个 基于 Spark 的 SQL 开源 项 目 Shark 随 之 
停止 更 新 ， 基 于 Spark 的 最 佳 的 SQL 计算 就 是 Spark SQL. 

Spark SQL 是 Spark 的 一 个 模块 ， 专 门 用 于 处 理 结构 化 数据 。 图 $-1 显 示 了 Spark SQL 与 Spark 
核心 及 其 他 模块 之 间 的 关系 。 


Spark E ark 图 Es 
SQL E 学 习 图 (图 Es 
BEEN 


图 5-1 Spark SQL 与 Spark 核 心 及 其 他 模块 之 间 的 关系 


Spark SQL 的 最 大 优势 是 性 能 非常 高 ， 这 得 益 于 Spark 的 基因 ， 而 且 还 使 用 了 基于 成 本 的 优化 
器 、 列 存储 、 代 码 生 成 等 技术 。 此 外 ，Spark SQL 也 可 以 扩展 到 上 千 个 计算 节点 以 及 数 小 时 的 计 
算 能 力 ， 并 且 支 持 自动 容错 恢复 。 

Spark 提 供 了 传统 的 SQL 交互 式 查 询 功能 ， 还 支持 业界 标准 的 JDBC/ODBC 访 问 接 口 ， 这 样 很 
容易 用 Spark SQL 来 实现 分 布 式 数据 仓库 ， 以 及 商业 智能 计算 。 而 且 Spark SQL 与 Apache Hive 基 
本 完全 兼容 ， 我 们 可 以 像 使 用 Hive 一 样 来 使 用 Spark SQL. 


而 且 Spark SQL 还 提供 领域 API， 并 且 提供 了 专门 的 数据 结构 抽象 DataFrame， 可 以 让 Spark 程 
序 轻松 进行 SQL 操作 。 它 支持 Scala 、Java、Python 和 R 这 4 种 编程 语言 ， 比 如 在 Scala 代 码 中 做 SQL 
查询 : 


SglContext = HiveContext (sc) 
val df = sqlContext.sql("SELECT * FROM table") 


此 外 ，Spark SQL 支持 非常 多 的 数据 源 ， 包 括 Hive、Avro、Parquet、ORC 、JSON JDBC, 
而 且 提 供 了 统一 的 访问 形式 ， 使 用 起 来 非常 方便 。 
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5.1 Spark SQL 基础 


使 用 Spark SQL 有 两 种 方式 : 一 种 是 作为 分 布 式 SQL 引擎 ， 此 时 只 需要 写 SQL 就 可 以 进行 计 
算 , 不 需要 复杂 的 编码 , 这 也 是 最 受 欢迎 的 一 种 方式 , 本 节 会 重点 介绍 ; 另外 一 种 模式 是 在 Spark 
程序 中 ， 通 过 领域 API 的 形式 来 操作 数据 ( 被 抽象 为 DataFrame )。 


5.1.1 分 布 式 SQL 引擎 
作为 分 布 式 引擎 时 ， 有 两 种 运行 方式 ,一 种 是 JDBC/ODBC Server， 另 一 种 是 使 用 Spark SQL 
命令 行 。 在 正式 环境 下 ， 建 议 使 用 前 者 ， 后 者 仅 在 本 地 测试 时 使 用 。 


JDBC/ODBC 服 务 的 部 署 结构 如 图 $-2 所 示 。 所 以 , 除了 前 面部 署 的 Spark 集 群 之 外 , 我 们 还 需 
要 部 署 一 个 DB 用 于 存储 数据 库 元 数据 ， 以 及 启动 一 个 JDBC/ODBC Server 作 为 对 外 服务 的 接口 。 


Thrift JDBC/ODBC Serve 


Spark 集 群 


图 5-2” JDBC/ODBC 服 务 的 部 署 结构 


1. 部 署 RDB 


Hc, 我 们 需要 部 署 一 个 DB, 它 可 以 是 任意 一 种 关系 型 数据 库 ， 比 如 MySQL、PostgreSQL。 
这 里 以 在 Ubuntu 上 部 署 MySQL 为 例 进 行 介绍 ， 执 行 下 面 的 命令 即 可 安装 MySQL 并 启动 服务 : 
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apt-get install mysqgl-server 
而 且 ， 还 需要 给 Spark SQL 添加 账号 并 开通 权限 。 默 认 使 用 的 DB 名 是 hiveMetastore ， 假 设 账 
号 和 密码 都 是 spark， 授 权 SQL 可 以 这 样 写 : 


mysql» grant all on hiveMetastore.* to sparke'localhost' identified by 'spark'; 
mysql» flush privileges; 


2. 准备 配置 文件 conf/hive-site.xml 
接 下 来 ,我们 准备 启动 JDBC/ODBC Server ， 在 启动 之 前 ， 需 要 准备 一 下 配置 文件 。 


Y 


JDBC/ODBC Server 是 基于 Hive 0.13 中 的 HiveServer2 来 实现 的 ， 所 以 JDBC/ODBC Server 的 配置 方 
法 与 HiveServer2 的 配置 方法 基本 相同 。 如 果 是 与 现 有 的 Hive 一 起 工作 ,直接 使 用 Hive 的 配置 文 从 
conf/hive-site.xml 即 可 ， 或 者 新 建 一 个 ， 在 conf 目 录 下 准备 一 个 名 为 hive-site.xml 的 配置 文件 ， 其 
内 容 如 下 : 


<configuration> 
<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 
<description> 指 定 JDO 驱 动 类 型 ,这 里 是 mysql</description> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value> 
jdbc:mysql://localhost:3306/hiveMetastore?createDatabaseIfNotExist=true 
</value> 
<description>mysql 地 址 ， 使 用 的 DB 名 是 hiveMetastore,，createDatabaseIfNotExist 为 
true 表 示 当 hiveMetastore 这 个 DB 不 存在 时 , 会 自动 创建 hiveMetastore</description> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>spark</value> 
<description>mysql 账 号 </description> 
</property> 
<property> 
«name»javax.jdo.option.ConnectionPassword«/name» 
«value»spark«/value» 
«description»mysqlZZ 4-/description- 
«/property» 
«/configuration» 


除了 上 面 的 选项 之 外 ， 还 支持 更 多 的 选项 ， 具 体 如 下 。 


口 hive.server2.thrift.bind.host。TCP 绑 定 的 地 址 ， 默 认为 localhost， 表 示 所 有 IP。 
D hive.server2.thrift .port。TCP 监 昕 的 端口 ， 默 认 值 为 10 000。 

口 hive.server2.thrift.min.worker.threads。Server 线 程 数 的 最 小 值 ， 默 认 值 为 5。 
口 hive.server2.thrift.max.worker.threads。Server 线 程 数 的 最 大 值 , 默认 值 为 500。 


TT 
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提示 “当局 动 多 个 JDBC/ODBC Server 时 ， 经 常 出 现 的 问题 是 ,连接 到 其 中 一 个 Server 的 客户 端 可 
以 看 到 某 个 新 创建 的 表 ， 而 连接 到 其 他 Server 的 客户 端 却 看 不 到 。 这 是 由 于 默认 的 缓存 机 
器 导致 的 ， 可 以 设置 选项 aatanucleus .cache.level12.type 的 值 为 none 来 关闭 缓存 。 


3. 启动 JDBC/ODBC Server 
现在 可 以 启动 JDBC/ODBC Server 了 ， 其 命令 是 : 


./sbin/start-thriftserver.sh 


使 用 --help 命 令 可 以 看 到 所 有 的 选项 列表 ， 它 基本 上 与 bin/spark-submit 脚 本 相同 ， 唯 一 多 
出 的 --hiveconf 可 用 于 设置 Hive 属 性 ， 优先 级 高 于 配置 文件 conf/hive-site.xml。 比如 ， 如 果 我 们 
不 想 使 用 默认 的 或 配置 文件 中 指定 的 绑 定 了 P 和 端口 ， 就 通过 --hiveconf 选 项 这 样 设置 : 


./Sbin/start-thriftserver.sh \ 
--hiveconf hive.server2.thrift.port-«listening-port» V 
--hiveconf hive.server2.thrift.bind.host-«listening-host» \ 


绑 定 的 卫 和 端口 可 以 通过 环境 变量 的 方式 来 指定 ， 而 且 优先 级 高 于 --hiveconf 选 项 ， 更 高 
于 配置 文件 : 


export HIVE SERVER2 THRIFT PORT-«listening-port» 
export HIVE SERVER2 THRIFT BIND HOST-«listening-host» 
./Sbin/start-thriftserver.sh 


JDBC/ODBC Server 还 可 以 运行 在 HITP 协 议 上 ， 这 样 方便 通过 代理 进行 访问 ， 其 方法 是 设置 
选项 hive.server2.transport.mode 的 值 为 HITP， 默 认 端 口 为 10001， 此 时 就 不 支持 默认 的 
TCP 模 式 了 。 关 于 HTTP 模 式 及 JDBC/ODBC Server 其 他 选项 的 更 多 内 容 ， 可 以 参考 HiveServer2 的 
配置 。 

4. 使 用 beeline 交 互 式 工具 

JDBC/ODBC Server 启 动 之 后 ， 我 们 可 以 用 beeline 来 测试 启动 是 否 正常 : 

./bin/beeline 

下 面 的 命令 可 以 连接 到 JDBC/ODBC Server: 

beeline> !connect jdbc:hive2://localhost:10000 

此 时 beeline 会 要 求 我 们 输入 用 户 名 和 密码 ,默认 是 非 安 全 模式 ,只 需要 输入 用 户 名 和 空 的 密 
码 即 可 。 

也 可 以 在 启动 beeline 时 ， 直 接 指定 JDBC Server: 


./bin/beeline -u 'jdbc:hive2://localhost:10000' 


这 是 beeline 的 完整 选项 列表 : 
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$ ./bin/beeline --help 
Usage: java org.apache.hive.cli.beeline.BeeLine 


-u «database url» the JDBC URL to connect to 

-n «username» the username to connect as 

-p «password» the password to connect as 

-d «driver class» the driver class to use 

-e «query» query that should be executed 

-f «file» script file that should be executed 
--hiveconf property-value Use value for given property 
--hivevar name-value hive variable name and value 


This is Hive specific settings in which variables 
can be set at session level and referenced in Hive 
commands or queries. 


--color-[true/false] control whether color is used for display 
--showHeader- [true/false] show column names in query results 
--headerInterval-ROWS; the interval between which heades are displayed 
--fastConnect-[true/false] Skip building table/column list for tab-completion 
--autoCommit- [true/false] enable/disable automatic transaction commit 
--verbose-[true/false] show verbose error messages and debug info 
--showWarnings-[true/false] display connection warnings 
--showNestedErrs-[true/false] display nested errors 

--numberFormat- [pattern] format numbers using DecimalFormat pattern 
--force-z[true/false] continue running script even after errors 
--maxWidth-zMAXWIDTH the maximum width of the terminal 
--maxColumnWidthzMAXCOLWIDTH the maximum width to use when displaying columns 
--gilent-[true/false] be more silent 

--autosave-[true/false] automatically save preferences 
--outputformat-[table/vertical/csv/tsv] format mode for result display 
--isolation-LEVEL set the transaction isolation level 


--nullemptystring-[true/false] set to true to get historic behavior of printing 
null as empty string 
--help display this message 


如 果 遇 到 SQL 查询 结果 中 文 显示 乱码 的 问题 ， 可 以 通过 修改 系统 编码 的 方式 解决 ， 比 如 数据 
是 UTF-8 编 码 ， 在 启动 beeline 之 前 ， 我 们 可 以 这 样 指定 终端 编码 : 


LANG-zh, CN.UTF-8; ./bin/beeline 


5. 运行 Spark SQL 命令 行 界面 

Spark SQL 命令 行 界 面 ( 以 下 简称 CLI ) 是 另 一 个 运行 Spark SQL 的 方式 ， 使 用 它 ， 可 以 在 本 
地 直接 启动 服务 ， 这 非常 适合 调试 使 用 。 注 意 Spark SQL CLUSThrift JDBC 服 务 是 不 同 的 。 

要 启动 Spark SQL CLI， 只 需要 执行 如 下 命令 ， 不 需要 像 JDBC/ODBC 那 样 先 启动 一 个 额外 的 
服务 : 


./bin/spark-sql 


Spark SQL CLI 也 支持 与 JDBC/ODBC Server 完 全 一 样 的 配置 。 使 用 ./bin/spark-sql 
--help 命 令 ， 可 以 查看 所 有 的 选项 列表 。 
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5.1.2 支持 的 SQL 语法 


Spark SQL 在 设计 上 与 Hive 兼 容 ， 是 一 种 “ 开 箱 即 用 ”的 兼容 方式 ， 即 可 以 直接 替代 Hive 的 
角色 ， 但 内 部 实现 完全 不 同 。 可 以 直接 使 用 Hive 的 meta 数 据 库 ， 语 法 上 也 基本 完全 兼容 HiveQL， 
不 同 的 地 方 非常 少 。 一 般 情 况 下 ， 完 全 可 以 使 用 HiveQL 来 操作 Spark SQL， 发 现 异常 时 再 通过 查 
询 手册 等 方式 来 解决 。 

Spark SQL 支持 绝 大 部 分 的 Hive 特 性 ， 有 具体 如 下 所 示 。 

Hive 查 询 语句 ， 包 括 : 

ü SELECT 
L GROUP BY 


口 ORDER BY 
L] CLUSTER BY 
口 SORT BY 


所 有 Hive 运 算 符 ， 包 括 : 


口 关系 运算 符 (=、 合 、==、<>、<、>、>=、<= 等 ) 
口 数学 运算 符 (+、-、*、/ 和 s 等 ) 

O 逻辑 运算 符 (AND、&g&g、OR、1| 1 等 ) 

口 复杂 类 型 构造 器 (struct. named, struct ) 

OQ 数学 函数 (sign. 1n. cos) 

O FIEX (instr. length, printfAg) 

口 用 户 自 定义 函数 (UDF ) 

口 用 户 自 定义 聚合 函数 CUDAF ) 

a 用 户 自 定 义 序列 化 格式 〈SerDes ) 

口 求 交 


E JOIN 

E (LEFT|RIGHT|FULL) OUTER JOIN 
E LEFT SEMI JOIN 

W CROSS JOIN 


C] Unions 


a 子 查询 


E SELECT col FROM ( SELECT a + b AS col from t1) t2 


C Sampling 


C] Explain 
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口 CRI 
I CRI 


Q ST 


Q TI 


Q AR 


D MA 
口 ST 


口 表 分 
口 View 
所 有 Hive DDLPAZE, £15: 


O ALTER TABLE 
绝 大 部 分 Hive 数 据 类 型 ， 包 括 : 


Q TINYINT 
Q SMALLINT 
D INT 

Q BIGINT 
D BOOLEAN 
D FLOAT 
L] DOUBLE 


ü DATE 


PX 


EATE TABLE 


EATE TABLE AS SELECT 


RING 


Q BINARY 


ESTAMP 


RAY<> 


Pe 


RUCT<> 


从 Spark 1.4 开 始 ，Spark SQL 已 经 开始 支持 窗口 孙 数 了 ， 包 括 排 名 也 数 rank、dense_rank、 
percent_rank、ntile、row_number, 以 及 分 析 归 数 cume_dist、first_value、last_value、 


lag. lead, 使 月 


时， 在 函数 后 面 要 加 Over 表 达 式 OV] 
当然 ， 有 一 些 Hive 特 性 是 Spark SQL 不 支持 的 ， 不 过 这 些 特 怕 


ER (PARTITION BY ... ORDER BY ...)o 


实际 上 很 少 用 到 。 最 主要 的 是 


不 支持 Hive 的 bucket 表 ， 使 用 散 列 的 方式 对 Hive 表 进行 分 区 。 另 外 ， 还 有 一 些 Hive 比 较 隐 秘 的 特 


性 Spark SQL 也 不 支持 ， 包 括 UNION 类 型 、Unique join; 


值得 注意 的 是 ，Hive 上 的 优化 方法 ， 大 部 分 Spark SQL 都 不 支持 。 因 为 Spark SQL 只 是 在 使 用 


.E5Hiveil 


5.1.8 ”支持 的 数据 类 型 


Spark SQL 和 DataFrame 支 持 大 部 分 Hive 


E. ， 实 现 机 制 完 全 不 一 样 ， 一 些 问 题 可 能 在 Spark 的 内 存 计 算 模式 下 也 不 是 问题 。 


体 如 下 所 示 。 


口 数字 类 型 .ByteType ShortTyp .IntegerType,LongType,FloatType,DoubleType 


5.1 Spark SQL 基础 99 


和 DecimalType。 

D 字符 串 类 型 。StringType。 
口 二 进 制 类 型 。BinaryType。 
口 Bool 类 型 。BooleanType。 
口 日 期 时 间 类 型 。TimestampType 和 DateType。 
u 复杂 类 型 。 ArrayType, apTypefllStructTypes 

在 Spark 程 序 中 ， 这 些 类 型 会 转换 到 特定 语言 的 特定 类 型 ， 而 且 取 值 范围 会 尽量 保持 不 变 。 
如 果 不 能 完全 对 应 ， 会 使 用 值 范围 更 大 的 类 型 来 表示 ， 但 值 不 变 。 比 如 Byterype 类 型 的 取 值 范 
围 是 -128~127, 在 Scala 下 会 使 用 byte 表 示 ，Java 中 也 是 byte， 取 值 范围 都 是 -128~127， 无 颖 对 接 ， 
而 Python 和 R 中 没有 对 应 的 类 型 ， 所 以 用 整 型 表示 。 


5.1.4 DataFrame 


Spark SQL 除了 支持 使 用 SQL 方式 来 查询 之 外 ， 还 提供 了 编程 接口 ， 可 以 在 Spark 程 序 中 引用 
Spark SQL 模块 。 编 程 时 使 用 的 数据 抽象 是 DataFrame， 它 具有 与 RDD 类 似 的 分 布 式 数据 集 特 点 ， 
但 还 增加 了 列 的 概念 ,这 样 可 以 与 传统 关系 型 数据 库 的 表 对 应 起 来 .与 R 和 Python 中 的 数据 框 ( data 
frame ) 在 概念 上 也 是 相同 的 ，Spark 程 序 支 持 的 Scala、Java、Python 以 及 R 这 4 种 编程 语言 都 可 以 
使 用 DataFrame。 

在 Spark 中 使 用 DataFrame 的 过 程 也 很 简单 ， 大 概 需要 如 下 4 步 : 

(1) 初始 化 环境 ， 一 般 是 创建 一 个 soLcontext 对 象 ; 

(2) 创建 一 个 DataFrame， 可 以 来 源 于 RDD 或 其 他 数据 源 ; 

(3) 调用 DataFrame 操 作 ， 是 一 种 领域 特定 的 API， 可 以 实现 所 有 的 SQL 功能 ; 

(4) 或 者 通过 函数 直接 执行 SQL 语句 。 

1. 从 创建 sozcontext 开 始 

就 像 普 通 Spark 程 序 需 要 sparkcontext 这 个 对 象 来 保存 环境 一 样 ，DataFrame 的 环境 对 象 是 
SQLContext, Spark SQL 相关 的 所 有 函数 ， 都 在 SoLContext 或 它 的 子 类 中 。SoLcontext 的 创 


val sc: SparkContext // sc 是 已 经 存在 的 SparkContext 实 例 
val sqlContext = new org.apache.spark.sql.SQLContext (sc) 


除了 最 基本 的 SoLCcontext ， 我 们 还 可 以 使 用 Hivecontext， 它 继承 自 SoLCcontext ， 提 供 
了 更 多 Hive 相 关 的 功能 , 比如 读 Hive 表 , 访问 Hive 用 户 定 义 函 数 (UDF ), 但 在 未 来 , SQLContext 
会 支持 所 有 Hivecontext 支 持 的 特性 ，HiveCcontext 将 不 再 必需 。 


HiveContext 这 样 进行 初始 化 : 


val sqlContext = new org.apache.spark.sql.hive.HiveContext (sc) 
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2. 创建 DataFrame 
环境 初始 化 之 后 ， 就 可 以 创建 DataFrame 了 ， 主 要 有 两 种 创建 方式 ， 具 体 如 下 所 示 。 
口 从 RDD 创 建 ， 又 分 两 种 : 


m 用 Scala 反 射 ， 代 码 简 洁 ， 但 需要 提前 知道 数据 格式 ; 
m 程序 指定 ， 略 复杂 ， 但 可 以 运行 时 指定 。 

口 从 其 他 数据 源 创 建 。 

e 使 用 反射 的 方法 从 RDD 创 建 DataFrame 


这 个 方法 是 先 定义 一 个 case class， 参 数 名 即 为 列 名 ， 然 后 将 RDD 的 成 员 转 换 成 case 
class 类 型 ， 包含 case class 的 RDD 可 以 通过 反射 方式 被 隐 式 转换 成 DataFrame，case class 
的 参数 名 会 成 为 表 的 列 名 ， 然 后 就 可 以 注册 成 一 张 表 。 


这 种 方法 使 代码 更 简洁 , 但 前 提 是 你 在 写 程序 的 时 候 已 经 知道 了 数据 格式 , 可 以 预 行 设 定 表 
的 模式 。 示 例如 下 : 


val sqlContext = new org.apache.spark.sql.SQLContext (sc) 

import sqglContext.implicits. 

// 定义 一 个 case class， 参 数 名 即 为 表 的 列 名 

// 注意 ，Scala 2.10 最 多 支持 22 个 字段 名 ， 如 果 想 绕 开 这 个 限制 ， 可 以 使 用 自 定义 class 并 实现 Product 接 口 
case class Person(name: String, age: Int) 

// 从 文本 文件 创建 RDD 

val rdd = sc.textFile("examples/src/main/resources/people.txt").map( .split(",")) 
// 还 是 RDD， 但 包含 了 case class 

val rddContainingCaseClass = rdd.map(p => Person(p(0), p(1).trim.toInt)) 

// &&case class 的 RDD 被 隐 式 转换 成 DataFrame， 注 意 toDF 是 DataFrame 的 方法 ， 而 不 是 RDD 的 

val people = rddContainingCaseClass.toDF () 

// 将 DataFrame 的 内 容 打 印 到 标准 输出 

people.show() 


输出 如 下 : 


+ 一 一 一 一 一 一 一 十 一 一 一 十 
| nameļage| 
+ 一 一 一 一 一 一 一 十 一 一 一 十 
|Michael| 29| 
| Andy| 30| 
| Justin| 19| 
4R------- 十 一 一 一 十 


@ 使 用 程序 动态 从 RDD 创 建 DataFrame 


当 case _ class 无 法 提前 知道 时 ( 例如， 记录 的 结构 被 编码 在 字符 串 中 ， 对 字符 串 进行 解析 
之 后 才 知 道 结构 ， 或 者 需要 针对 不 同 的 用 户 呈 现 不 同 的 字段 集 )， 我 们 还 可 以 在 运行 时 动态 指定 
表 模 式 来 从 RDD 创 建 DataFrame， 这 个 方法 需要 经 过 如 下 这 3 步 。 


(1) 从 原来 的 RDD 创 建 一 个 新 的 RDD， 成 员 是 Row 类 型 ,包含 所 有 列 。 
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(2) 创建 一 个 structType 类 型 的 表 模 式 ， 其 结构 与 步骤 (1) 中 创建 的 RDD 的 Row 结 构 相 匹配 。 
(3) 使 用 soLContext . createDataFtrame 方 法 将 表 模 式 应 用 到 步 又 (TD) 创 建 的 RDD 上 。 


虽然 这 种 方法 略 显 复杂 ， 但 它 可 以 让 你 在 运行 时 动态 创建 ， 示 例如 下 : 


val sqlContext = new org.apache.spark.sql.SQLContext (sc) 

// 一 个 普通 RDD 

val people = sc.textFile("examples/src/main/resources/people.txt") 

// 字符 串 格 式 的 表 模 式 

val schemaString = "name age" 

// 导入 依赖 的 数据 类 型 

import org.apache.spark.sql.Row; 

import org.apache.spark.sql.types.(StructType, StructField, StringType); 
// 根据 字符 串 格式 的 表 模 式 创建 结构 化 的 表 模 式 ， 用 StructType 保 存 


val schema = 


StructType( 
schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, 
true))) 
// 将 普通 RDD 的 成 员 转 换 成 Row 对 象 
val rowRDD = people.map( .split(",")).map(p => Row(p(0), p(1).trim)) 


// 将 模式 作用 到 RDD 上 ， 生 成 DataFrame 

val peopleDataFrame = sqglContext.createDataFrame(rowRDD, schema) 
// 将 DataFrame 的 内 容 打 印 到 标准 输出 

peopleDataFrame.show() 


e 从 其 他 数据 源 生 成 DataFrame 


Spark 提 供 了 统一 的 接口 , 可 以 很 方便 地 从 其 他 数据 源 创 建 DataFrame, 比如 从 JSON 格 式 的 文 
件 创 建 DataFrame : 


val df = sqlContext.read.json("examples/src/main/resources/people.json") 
df.show() 


无 论 是 SQL 方式 和 DataFrame 编 程 方式 ， 都 支持 许多 类 型 的 数据 源 ， 详 情 将 在 下 一 节 中 单独 


3. DataFrame 操 作 


DataFrame 文 持 许 多 特殊 的 操作 ， 称 为 领域 编程 语言 或 领域 API。 上 面 示例 中 的 show 方 法 其 
实 就 是 一 个 常用 的 DataFrame 操 作 ， 而 且 这 些 操 作 都 可 以 翻译 成 对 应 的 SQL 语句 ， 虽 然 表 现形 式 
不 同 , 但 神似 。 下 面 是 示例 : 


val sc: SparkContext // 已 经 存在 的 SparkContext 

val sqlContext = new org.apache.spark.sql.SQLContext (sc) 

// 创建 DataFrame， 相 当 于 生成 一 张 表 ， 假 设 表 名 是 people 

val df = sqlContext.read.json("examples/src/main/resources/people.json") 
// 将 DataFrame 的 内 容 打 印 到 标准 输出 

// 对 应 的 SQL : 

// select * from people 

df.show() 

// age name 
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// null Michael 

// 30 Andy 

// 19 Justin 

// 以 树 形 打印 DataFrame 模 式 

// 对 应 的 SQL : 

// show create table people 
df.printSchema() 


// root 
// |-- age: long (nullable = true) 
// |-- name: string (nullable - true) 


// 选择 列 "name" 

// 对 应 的 SQL: 

// select name from people 
df.select("name").show() 

// name 

// Michael 

// Andy 

// Justin 

// 选择 所 有 ， 并 且 age 列 加 1 

// 对 应 的 SQL: 

// select name, age «1 from people 
df.select(df("name"), df("age") + 1).show() 
// name (age + 1) 

// Michael null 

// Andy 31 

// Justin 20 

// 选择 age 大 于 21 的 

// 对 应 的 SQL : 

// select * from people where age > 21 
df.filter(df("age") » 21).show() 

// age name 

// 30 Andy 

// 按 age 分 组 ， 并 输出 各 组 的 数量 

// 对 应 的 SQL : 

// select age, count(*) from people group by age 
df.groupBy("age").count().show() 

// age count 

// null 1 

// 19 1 

A EA! 1 


4. 执行 SQL 

除了 上 述 通 过 领域 API 的 方式 访问 DataFrame 外 ， 还 可 以 将 DataFrame 注 册 成 表 ， 然 后 使 用 纯 
SQL 语句 的 方式 来 访问 。 

首先 ， 使 用 registerTempTable 方 法 将 DataFrame 注 册 成 一 张 表 : 

df.registerTempTable("people") 

然后 就 可 以 进行 SQL 查询 了 : 


val result = sql1Context.sql("SELECT * FROM people") 
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另外 , 上 面 查询 使 用 的 SQL 支持 使 用 不 同 的 SQL 语法 解析 器 。 默 认 情 况 下 , 会 使 用 SQLContext 
中 自 带 的 一 个 非常 简单 的 SQL 语法 解析 器 ， 如 果 不 够 用 ， 可 以 换 成 功能 更 强大 的 HiveQL 解 析 器 。 
这 可 以 使 用 spark.sal.dqialect 选 项 重新 指定 ， 设 置 成 hivedl ， 可 以 通过 SQLContext 中 的 
setcConf 方 法 设置 ， 或 者 在 SQL 中 使 用 SETkey=value 命 令 来 设置 。 


当 使 用 HiveContext 时 ，DataFrame 还 可 以 使 用 saveaAsTable 方 法 持久 化 ,内容 会 被 保存 到 存 
储 系统 中 ， 表 信息 会 保存 在 数据 库 中 ， 这 样 即使 程序 退出 后 ， 其 他 进程 还 可 以 访问 它 。 比 如 : 

val sqlContext = new org.apache.spark.sql.hive.HiveContext (sc) 

val df = sqglContext.read.json("examples/src/main/resources/people.json") 

df.saveAsTable("people") 

如 果 是 在 本 地 模式 ， 数 据 会 保存 至 /serhive/warehouse/people/ 目 录 下 ， 表 信息 会 保存 在 
metastore db 目录 下 ， 通 过 ./bin/spark-sql 可 以 看 到 default 数 据 下 会 出 现 一 张 新 的 表 people。 如 果 是 
在 集群 模式 下 ， 上 面 代码 的 效果 与 通过 JDBC/ODBC Server 创 建 一 张 表 并 导入 数据 相同 ， 也 可 以 
通过 beeline 看 到 表 people。 


5.1.5 DataFrame 数据 源 
DataFrame 支 持 非常 多 类 型 的 数据 源 ， 包 括 Hive、Avro、Parquet、ORC、JSON、JDBC。 而 
且 Spark 提 供 了 统一 的 读 写 接口 。 
通过 数据 源 加 载 数 据 时 , 默认 的 类 型 是 Parquet, 这 是 一 种 大 数据 计算 中 最 常用 的 列 式 存储 格 
式 。 下 面 以 Scala 为 例 进 行 介绍 ， 其 加 载 方法 是 : 
val df = sqlContext.read.load("examples/src/main/resources/users.parquet") 
对 于 其 他 类 型 ， 可 以 使 用 format 指 定 : 


val df - 
SqlContext.read.format("json").load("examples/src/main/resources/users.json") 


数据 源 类 型 的 名 字 一 般 应 该 是 全 称 ， 比 如 org .apache.spark.sql.parquet, 但 对 于 内 置 
类 型 ， 我 们 可 以 使 用 缩写 ， 比 如 Parquet、JSON 、JDBC。 


保存 时 ， 默 认 类 型 也 是 Parquet: 


df.select("name", "age").write.save("namesAndFavColors.parquet") 

— ds s Ber 

同样 ， 对 于 其 他 类 型 ， 使 用 format 指 定 : 

df.select("name", "age").write.format("parquet").save("namesAndAges.parquet") 


像 普通 写 文件 一 样 ， 保 存 时 也 有 几 种 模式 ， 具 体 如 下 。 


口 saveMode .ErrorIfExists。 默 认 模 式 ， 如 果 文 件 已 经 存在 ， 就 报错 。 
口 SaveMode .Append。 追 加 模式 。 
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口 SaveMode.Overwrite. (Hiit. 
O saveMode .Ignore。 如 果 文 件 存在 就 放弃 写 ， 这 类 似 SQL 中 的 CREATE TABLE IF NOT 
EXISTS。 


5.1.6 ”性 能 调 优 


Spark SQL 自身 的 性 能 已 经 非常 领先 了 ， 个 人 需要 做 的 并 不 多 。 最 重要 的 性 能 优化 方法 是 ， 
使 用 内 存 来 缓存 数据 ， 调用 的 方法 是 sqlContext .cacheTable ("tableName") 或 dataFrame. 
cache()s 此 外 ， 调用 sqlContext .uncacheTable("tableName" ) 可 以 从 内 存 中 移 除数 据 。 


内 存 缓存 可 以 通过 如 下 两 个 系统 配置 来 控制 。 
D spark.sql.inMemoryColumnarStorage.compressed。 默 认 值 为 Lrue， 表示 开启 压缩 。 


D spark.sql.inMemoryColumnarStorage.batchSize。 绥 存 块 大 小 ， 增 加 它 可 以 提升 
内 存 利 用 率 ， 但 也 会 增加 内 存 溢出 的 风险 。 


此 外 ,还 有 一 些 选项 可 以 用 于 优化 ， 但 不 建议 做 ， 未 来 这 些 优化 工作 都 将 自动 进行 。 
除了 系统 层面 的 优化 ， 应 用 程序 本 身 的 优化 也 是 非常 重要 的 环 科 ， 需 要 不 断 积累 经 验 。 


5.2 Spark SQL 原理 和 运行 机 制 


在 Spark 出 现 之 前 , 基于 Hadoop MR 的 Hive 一 直 是 开源 大 数据 SQL 计算 的 唯一 选择 , 但 其 性 能 
一 直 被 人 诉 病 。Spark 在 刚 推出 的 几 年 间 ， 并 不 支持 SQL 计算 ， 但 它 相 对 于 Hadoop MR 的 巨大 性 
能 优势 还 是 非常 吸引 人 的 ， 于 是 出 现 了 基于 Spark 的 SQL 计算 框架 Shark。 


Shark 基 于 Hive 的 代码 实现 , 但 底层 的 计算 改 为 使 用 Spark， 这 使 得 Shark 相 对 于 Hive 有 非常 大 
的 性 能 优势 ， 而 且 Shark 还 是 第 一 个 支持 交互 式 查询 的 SQL 引擎 ， 非 常 容易 人 手 。 

然而 Shark 大 量 使 用 Hive 的 代码 也 带 来 严重 的 弊端 ， 这 给 进一步 的 优化 和 维护 工作 带 来 非常 
大 的 困难 ， 也 无 法 充分 利用 Spark 以 及 Scala 语 言 的 优势 ， 而 且 对 于 Spark 的 集成 计算 战略 也 是 很 大 
的 障碍 。 

因此 ， 在 Shark 的 基础 上 ，Spark SQL 进行 了 重新 开发 ， 语 法 上 尽 可 能 保持 与 Hive 兼 容 ， 最 大 
的 动作 是 重 写 了 执行 优化 器 ， 代 号 为 Catalyst。 

相对 于 Shark，Spark SQL 的 最 大 优势 是 性 能 。 在 分 析 型 TPC-DS 基 准 测试 中 ，Spark SQL 的 
性 能 超过 Shark 一 个 数量 级 ， 而 且 还 提供 了 编程 接口 , 可 以 让 普通 Spark 程 序 也 能 享受 SQL 语言 的 
便利 。 

由 于 Spark SQL 的 优势 明显 ，Shark 目 前 已 经 停止 开发 ， 由 Spark SQL 正式 接任 ,并 在 Spark 1.3 
中 正式 发 布 。 
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5.2.1 Spark SQL 整体 架构 


Spark SQL 同时 支持 DataFrame 编 程 API, 以 及 SQL 执行 和 JDBC/ODBC 接 口 , 整体 结构 如 图 5-3 


所 示 。 
Spark 程 序 、ML 
JDBC/ODBC Spark SQL CLI CHANT NES 


Hive Spark SQL 


Parquet 


JSON 


图 5-3 Spark SQL 的 结构 图 


Spark SQL 是 Spark Core 之 上 的 一 个 模块 ， 所 有 SQL 操作 最 终 都 通过 Catalyst 翻 译 成 类 似 普 通 am 
Spark 程 序 一 样 的 代码 ， 被 Spark Core 调 度 执 行 ， 其 过 程 也 有 Job Stage, Taskf HE. 


5.2.2 Catalyst 执行 优化 器 


Catalyst 是 Spark SQL 执 行 优化 此 的 代号 ， 所 有 Spark SQL 话 句 最 终 都 通过 它 来 解析 、 优 化 ， 
最 终生 成 可 以 执行 的 Java 字 节 码 。 因 此 ，Catalyst 是 Spark SQL 最 核心 的 部 分 。 而 且 不 同 于 Shark 使 
用 Hive 执 行 优化 器 的 做 法 ，Catalyst 是 专 为 Spark 设 计 的 ， 并 结合 了 了 Scala 语言 本 身 的 优势 ， 使 得 性 
能 甚至 超过 手工 编写 的 Scala 代 码 。 

评判 执行 优化 器 的 标准 只 有 一 条 , 那 就 是 执行 效率 , 或 者 说 执行 速度 是 否 足 够 快 。 Spark SOL 
刚 发 布 时 ， 即 与 当时 的 Shark 进 行 了 一 次 对 比 性 能 测试 ， 使 用 的 是 第 三 方 的 针对 离线 数据 分 析 场 
景 的 TPC-DS 基 准 测试 ， 结 果 在 多 个 场景 下 性 能 都 显示 出 了 绝对 的 优势 ， 具 体 如 图 5-4 所 示 。 
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TPC-DS Results 
Bi Shark-0.92 E SparkSQL + codegen 


400 sec 


300 sec 


200 sec 


100 sec 


0 sec 
Query 19 Query 53 Query 34 Query 59 


图 5-4 对 比 性 能 测试 结果 ( 男 见 彩 插图 5-4 ) 


除了 性 能 上 的 优势 之 外 ，Catalyst 的 扩展 性 也 非常 好 ， 它 不 但 可 以 很 方便 地 添加 新 的 优化 技 
术 和 新 的 特性 , 而 且 还 可 以 很 方便 地 扩展 优化 器 ,比如 添加 新 的 数据 类 型 或 针对 特定 数据 源 的 优 
化 规则 。 

Catalyst 最 主要 的 数据 结构 是 树 , 所 有 SQL 语句 都 会 用 树 结构 来 存储 , 树 中 的 每 个 节点 有 一 个 
类 (class )， 以 及 0 或 多 个 子 节点 。Scala 中 定义 的 新 的 节点 类 型 都 是 TreeNode 这 个 类 的 子 类 。 这 
些 对 象 都 是 不 可 变 的 。 

这 里 以 表达 式 x+ (1+2 ) 为 例 介 绍 一 下 ， 其 中 每 个 元 素 都 对 应 一 个 类 型 。 这 个 表达 式 总 共有 3 
个 类 型 ， 具 体 如 下 所 示 。 
O Literal(value: Int), 一 个 整数 常量 类 型 ，1 和 2 都 是 这 个 类 型 。 
D Attribute(name: String)。 表 示 一 个 列 属性 ， 比 如 x。 
D Add(left: TreeNode, right: TreeNode)。 表 达 式 类 型 ， 用 于 求 和 。 
所 以 ,表达 式 最 终 在 Scala 中 的 定义 是 : 


Add(Attribute(x), Add(Literal(1), Literal(2))) 


这 对 应 一 棵 如 图 $-$ 所 示 的 树 。 
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Attribute(x 


Literal(1) Literal(2) 


图 $-5” 树 结构 

Catalyst 另 外 一 个 非常 重要 且 基 础 的 概念 是 规则 。 基 本 上 ， 所 有 优化 都 是 基于 规则 的 。 可 以 
用 规则 对 树 进 行 操 作 , 树 中 的 节点 是 只 读 的 , 所 以 树 也 是 只 读 的 。 规 则 中 定义 的 函数 可 能 实现 从 
一 棵 树 转 换 成 一 棵 新 树 。 

比如 ， 可 以 定义 这 样 一 个 规则 ， 将 常量 相 加 的 子 树 合并 成 一 个 节点 : 


tree.transform ( 
case Add(Literal(cl1), Literal(c2)) **-»** Literal (cl+c2) 


} 


将 这 个 规则 应 用 到 前 面 的 示例 x+ (1-2) 表达 式 之 后 ， 表 达 式 就 变 成 了 x+3， 此 时 就 生成 了 一 
棵 新 树 。 

这 里 的 case 关 键 字 是 Scala 的 标准 模式 匹配 的 语法 ， 可 以 用 来 对 一 个 对 象 的 类 型 进行 匹配 , 
并 且 可 以 提取 其 中 的 值 ( 即 c1 和 c2 )。 这 里 的 类 型 是 一 个 表达 式 类 型 ， 用 于 对 两 个 Literal 类 型 
的 对 象 进行 求 和 操作 。 这 也 是 函数 式 编 程 的 一 大 特点 , 任何 表达 式 都 是 对 象 , 并 且 属 于 某 种 类 型 。 

Catalyst 会 用 指定 的 类 型 对 树 进 行 匹配 ， 自 动 忽略 不 匹配 的 部 分 ， 只 对 匹配 的 子 树 调用 定义 
的 转换 操作 。 这 样 做 的 好 处 : 一 是 规则 只 需要 关注 匹配 的 子 树 即 可 ,不 用 知道 全 貌 ， 二 是 方便 扩 
展 新 的 树 节点 类 型 ， 而 无 须 修改 现在 的 规则 ， 扩 展 性 好 。 

此 外 ， 也 可 以 一 次 定义 多 条 规则 ， 而 且 代码 非常 简洁 : 


tree.transform ( 
case Add(Literal(cl1), Literal(c2)) => Literal(c1-«c2) 
case Add(left, Literal(0)) -» left 
case Add(Literal(0), right) -» right 


} 


在 实际 的 执行 过 程 中 ， 每 条 规则 需要 运行 多 次 才能 保证 对 树 进行 完全 的 转换 。 比 如 
x+ (1+ (2+3))，, 第 一 次 转换 的 结果 是 x+ (1+5), 第 二 次 转换 的 结果 是 x+6, 这 才 算 完成 。Catalyst 
会 循环 应 用 规则 ， 直 到 树 不 再 发 生变 化 为 止 。 这 样 虽然 每 个 规则 都 非常 简单 且 自 依赖 , 但 最 终 也 
能 产生 非常 巨大 的 效果 ， 同 时 非常 便于 维护 和 调试 。 
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了 解 了 Catalyst 最 基本 的 概念 树 和 规则 之 后 ， 现 在 让 我 们 来 看 看 Catalyst 的 执行 过 程 。 整 个 优 
化 执行 器 可 以 分 为 以 下 4 个 阶段 ， 具 体 如 图 5-6 所 示 。 
口 分 析 阶 段 ， 分 析 逻 辑 树 ， 解 决 引用 。 
口 逻辑 优化 阶段 。 
口 物理 计划 阶段 ，Catalyst 会 生成 多 个 计划 ， 并 基于 成 本 进行 对 比 。 
a 代码 生成 阶段 ， 将 查询 编译 成 Java 字 节 码 。 


SQL 查询 


分 析 逻辑 优化 物理 优化 


未 辨识 的 优化 后 的 
逻辑 计划 逻辑 计划 


图 5-6 ”优化 执行 器 


这 4 个 阶段 都 是 基于 规则 的 ， 详 细 分 析 如 下 。 

1. 分 析 阶 段 

Spark SQL 从 一 个 关系 ( 可 以 当 作 表 来 理解 ) 的 计算 开始 ， 要 么 来 自 于 SQL 解析 后 的 抽象 语 
法 树 (AST )， 或 通过 API 调 用 产生 的 DataFrame 对 象 。 该 关系 中 可 能 包含 大 量 未 辨识 的 属性 引用 
或 关系 。 比 如 ， 在 SQL 语句 SELECT col FROM sales 中 ,我 们 并 不 知道 col 的 类 型 以 及 它 是 否 
是 一 个 有 效 的 列 名 ， 也 不 知道 sales 是 否 是 表 名 或 表 的 别名 ， 直 到 查询 所 有 的 表 定 义 才 知道 。 
Spark SQL 使 用 Catalyst 规 则 和 Catalog 对 象 来 跟踪 所 有 数据 源 中 的 表 ， 以 解决 这 些 未 辨识 的 属性 


代码 生成 


选中 的 
物理 计划 


E 
cur 


id ai mE a H HR 


分 析 过 程 从 创建 一 棵 “未 辨识 逻辑 计划 ” 树 开始 ,初始 时 树 节 点 的 类 型 可 能 是 未 知 的 ,然后 应 用 
规则 做 如 下 这 些 事情 。 


口 在 catalog 对 象 中 查找 关系 (K) 
O 匹配 命名 属性 ， 比 如 列 名 col。 
o 对 指向 相同 值 的 属性 赋予 相同 的 ID， 方便 后 面 进一步 优化 ， 比 如 转换 后 生成 的 col=col 
可 以 优化 成 True， 和 避免 col 的 查询 或 计算 。 
O 扩散 并 定义 类 型 。 比 如 我 们 知道 了 col 的 类 型 ， 然 后 通过 扩散 就 知道 了 col+1 的 类 型 ， 从 
而 完成 了 树 中 所 有 节点 的 类 型 标识 。 

2. 逻辑 优化 阶段 

在 这 个 阶段 , 采用 标准 的 基于 规则 的 优化 方法 ( 基于 成 本 的 优化 是 通过 应 用 不 同 的 规则 生成 
不 同 的 计划 ,然后 计算 它们 的 成 本 )。 这 些 规 则 包括 常量 折 又 、 谓 词 下 推 、 投 影 修剪 、 空 值 传 播 、 
布尔 表达 式 简 化 ， 等 等 。 总 之 ,在 绝 大 部 分 情况 下 ， 都 可 以 非常 简单 地 添加 规则 。 例 如 ， 当 添加 
了 固定 精度 的 小 数 类 型 到 Spark SQL 时 ， 我 们 希望 优化 聚合 计算 ， 比 如 求 和 或 平均 值 。 大 家 都 知 
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道 整数 计算 比 浮 点 数 快 得 多 ， 因 此 在 计算 过 程 中 可 以 使 用 -Long 类型， 结果 再 转换 成 原来 的 固定 
精度 的 小 数 类 型 ( 最 常用 的 场景 在 金融 方面 , 其 中 两 个 小 数位 的 浮 点 计算 其 实 都 使 用 整数 来 代替 
计算 )， 整 个 代码 不 到 20 行 ， 如 下 : 


object DecimalAggregates extends Rule[LogicalPlan] ( 
import Decimal.MAX LONG. DIGITS 
// Double 类 型 的 最 大 小 数位 数量 
val MAX DOUBLE DIGITS = 15 
def apply (plan: LogicalPlan): LogicalPlan = plan 
transformAllExpressions { 
case Sum(e @ DecimalType.Expression(prec, scale)) if prec 
+ 10 «- MAX LONG, DIGITS => 
MakeDecimal(Sum(UnscaledValue(e)), prec + 10, scale) 
// 计算 平均 值 时 ， 因 为 有 一 次 除法 ， 为 了 不 降低 结果 的 精度 ， 
// 对 输入 的 精度 要 求 高 于 求 和 
case Average(e @ DecimalType.Expression(prec, scale)) 
if prec + 4 «- MAX DOUBLE DIGITS => 
Cast( 
Divide (Average (UnscaledValue(e)), 
Literal.create(math.pow(10.0, scale), DoubleType)), 
DecimalType(prec + 4, scale + 4)) 


} 


3. 物理 计划 阶段 

在 物理 计算 阶段 ，Spark SQL 接受 一 个 逻辑 计划 作为 输入 ， 生 产 一 个 或 多 个 物理 计划 ， 使 用 
物理 运算 符 来 匹配 Spark 引 警 ， 然 后 根据 成 本 模型 选择 一 个 计划 。 目 前 ， 基 于 成 本 的 方法 只 用 于 
选择 join 算法 : 对 于 已 知 的 小 表 ， 使 用 广播 连接 。 因 为 规则 可 以 递归 遍历 整个 树 来 计算 成 本 ， 所 
以 这 套 机 制 应 该 也 可 以 有 更 广泛 的 应 用 。 

在 物理 计划 阶段 ， 同 样 也 会 进行 基于 规则 的 物理 优化 ， 比 如 将 投射 和 过 滤 需 用 管道 输送 至 
Spark 的 map 操 作 。 此 外 ， 它 可 以 将 操作 从 逻辑 计划 推送 至 支持 谓词 或 投影 下 推 的 数据 源 中 进行 
计算 o 

4. 代码 生成 阶段 


最 后 的 代码 生成 阶段 ， 将 前 面 生 成 的 物理 计划 转换 成 Java 字 节 码 ， 因 为 使 用 了 Scala 语 言 的 
quasiquotes 特 性 ， 让 这 个 过 程 变 得 简单 且 高 效 。quasiquotes 可 以 让 我 们 直接 将 计划 树 转换 成 抽象 
语法 树 (AST )， 然 后 Scala 编 译 器 直接 生成 字 节 码 。 

这 里 以 表达 式 (x+y) +1 为 例 进 行 介绍 。 如 果 没 有 代码 生成 , 就 需要 针对 每 条 记录 遍历 逻辑 树 ， 
并 解释 执行 每 个 表达 式 ， 这 样 会 产生 大 量 的 代码 分 支 和 函数 调用 ， 效 率 非常 低下 。 而 使 用 
quasiquotes 之 后 ， 只 需要 写 一 些 转换 函数 就 可 以 生成 抽象 语法 树 ， 示 例 代 码 如 下 : 

def compile(node: Node): AST = node match ( 


case Literal(value) => q"'$value" 
case Attribute(name) => q"row.get($name)" 
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case Add(left, right) => q"$(compile(left)) + $(compile(right))" 
} 


表达 式 中 的 x 和 y 对 应 Attribute 类 型 ，1 是 常量 ， 对 应 Literal 类 型 ，+ 操 作对 应 add 类 型 ， 
G 开 关 的 字符 串 表 示 那 是 代码 ， 是 要 被 编译 器 编译 的 。 
通过 上 面 的 转换 之 后 ， 原 始 的 SQL 表达 式 (x+y) +1 会 翻译 成 Scala 代 码 : 


( row.get('x') + row.get('y') ) + 1 


这 基本 等 同 于 手写 的 效果 ， 比 解释 执行 至 少 快 3 倍 以 上 。 


5.3 ”应 用 场景 基于 淘宝 数据 建立 电 商 数 据 仓 库 


Spark SQL 的 分 布 式 计算 、 高 可 扩展 性 、 容 错 人 性、 支持 JDBC/ODBC 的 特性 ， 完 全 可 以 作为 分 
布 式 数据 仓库 的 核心 。 

传统 的 数据 仓库 方案 ,不 但 成 本 高 ， 而 且 扩 展 性 差 ， 所 以 一 般 选 择 开源 的 Hadoop+Hive 方 案 
即 可 。 但 Hive 底 层 的 计算 框架 是 Hadoop MR， 其 性 能 与 Spark 相 去 甚 远 ， 而 且 Spark SQL 基于 性 能 
更 优 的 Spark， 再 加 上 执行 需 的 优化 ,在 数据 仓库 应 用 方面 也 会 带 来 明显 优势 。 比 如 在 相同 计算 
负载 的 情况 下 ,我 们 只 需 投 入 部 分 机 屁 即 可 实现 Hive 的 效果 , 或 者 可 以 进行 更 多 的 计算 , 将 统计 
周期 从 常规 的 天 提升 至 小 时 ,其 至 到 分 钟 级 别 。 对 于 瞬息 万 变 的 商业 环境 ,快速 的 结果 查询 带 来 
的 苋 争 力 优势 是 不 言 而 喻 的 。 

通过 前 面 章节 的 部 署 ， 再 加 上 本 章 JDBC/ODBC Server 的 部 署 ， 我 们 已 经 具备 了 一 个 数据 仓 
库 的 基本 架构 了 ， 如 图 5-7 所 示 。 


Hadoop HDFS 


图 5-7 数据 仓库 的 架构 
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该 架构 提供 了 标准 JDBC/ODBC 接 口 以 及 交互 式 SQL 命 令 行 工 具 ， 可 以 与 其 他 BI 工具 或 辅助 
系统 集成 ， 满 足 企业 的 定制 化 需求 。 

在 数据 导入 方面 ， 视 数据 源 不 同 ， 可 以 灵活 采取 多 种 手段 ， 比 如 Hadoop HDFS 客 户 工具 、 
Flume, 、Sqoop 等 。 


5.3.1 电 商 数据 仓库 场景 
淘宝 作为 国内 最 大 的 电 商 平台 ， 其 注册 商店 的 数量 达 千 万 级 别 ， 商 品 数 量 达 十 亿 级 别 ，2014 
年 “ 双 十 一 ”一 天 的 成 交 量 达 571 亿 元 。 在 竞争 如 此 激烈 的 平台 上 ， 作 为 一 个 商家 ， 除 了 经 营 自 
己 的 店铺 之 外 ,还 应 该 关注 一 下 同行 、 同 类 商品 的 销售 情况 ， 做 到 知己 知 彼 ， 进 行 更 有 针对 性 的 
营销 。 
作为 一 个 卖家 ， 可 能 会 关注 如 下 这 些 店铺 信息 : 
口 最 近 7 天 销量 最 高 的 商家 有 哪些 ; 
口 最 近 7 天 上 线 新 品 最 多 的 店铺 是 谁 ; 
口 销量 增长 最 快 的 店铺 是 哪些 。 
此 外 ， 还 可 能 关注 如 下 这 些 商品 信息 。 
口 一 上 市 就 热卖 ( 最 近 一 个 月 新 上 架 商品 中 ， 头 7 天 销量 最 高 ) 的 商品 是 什么 。 
a 行业 热 销 宝贝 排行 : 交易 数 topn 的 单 品 。 
口 峰 升 宝贝 排行 榜 。 
现在 我 们 尝试 用 公开 可 获取 的 数据 ， 再 加 上 Spark SQL 的 计算 能 力 ， 来 解答 上 面 的 问题 。 


5.3.2 ”数据 准备 和 表 设 计 
计算 之 前 , 首先 要 准备 原始 数据 。 由 于 淘宝 不 会 公开 这 些 数据 , 为 了 让 实验 过 程 更 贴近 真实 ， 
我 们 用 简单 的 候 虫 方式 自动 获取 一 些 数据 , 可 能 不 是 很 准确 , 也 不 完整 , 但 作为 实验 应 该 足够 了 。 
要 回答 5.3.1 节 里 面 的 问题 ， 大 概 需要 3 类 数据 : 店铺 信息 、 商 品 信息 和 交易 流水 。 
为 了 尽 可 能 地 获取 真实 数据 ， 准 备 数据 的 流程 大 致 分 为 以 下 几 步 。 
(D 准备 一 个 分 类 数据 ， 用 搜索 引 警 可 以 搜索 到 。 这 里 我 们 采用 3 级 分 类 ， 也 可 以 手工 添加 其 
他 分 类 数据 ， 示 例如 下 : 


女装 男装 女 式 上 装 毛 呢 外 套 
女装 男装 女 式 裤子 牛仔 裤 
女装 男装 当 季 男装 长 袖 衬衫 
我 们 共 准 备 了 1000 个 分 类 。 


据 
不 
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(2) 用 分 类 数据 作为 关键 词 ， 向 淘宝 官网 搜索 页 面 提交 查询 请 求 ， 读 取 前 10 页 的 查询 结 
然后 将 这 些 商 品 归 入 当前 分 类 中 ， 同 时 读 取 |/ xh. 商品 信息 。 这 样 我 们 共 获 取 了 24 万 条 
数据 。 


Python fE ri rjf CR a TF : 


d1/usr/bin/env python 
# -*- coding: utf-8 -*- 
import sys 
import urllib, urllib2, base64, json 
import random 
import logging, datetime, time 
import StringIO, gzip 
reload(sys) 
Sys.setdefaultencoding( "utf-8" ) 
F 按 关 键 词 和 页 面 码 提交 HTTP 搜 索 请 求 
def searchKey (keystr, page=0): 
# 发 送 HTTP 请 求 
_url="http://s.taobao.com/search?q=%s" % urllib.quote(keystr) 
if page > 0: 
.url = "%s&bcoffset=1&s=%s" $ ( url, page*44) 
print url 
.headers = ( 
"Accept":"text/html,application/xhtml-«xml,application/xml; 
qz0.9,image/webp,*/*;qz0.8", 
"Accept-Encoding":"gzip, deflate, sdch", 
"Accept-Language" :"zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4", 
"Cache-Control" :"max-age=0", 
"Connection":"keep-alive", 
"Referer":"http://www.taobao.com", 
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/42.0.2311.135 Safari/537.306" 


} 

# HTTP 返回 结果 

req = urllib2.Request(url- url, headers- | headers) 
f = urllib2.urlopen(req, timeout-10) 


if 200 !- f.getcode(): 
raise Exception("create scanner fail") 
# 解压 缩 


gzip data-f.read() 
gzip stream = StringIO.StringIO(gzip data) 
f gzip - gzip.GzipFile(fileobj - gzip stream) 


# 根据 关键 词 特征 提取 页 面 内 容 中 的 g_page_config 字 段 
ks - " g page config - " 

klen = len(ks) 

for 1 in f gzip.readlines(): 


if l[:klen] == ks: 
s-l[klen : len(1)-2] 
return s 


* 根据 分 类 ， 构 造 搜索 关键 词 进 行 查询 


def searchClass(class one, class two, class three, class four, page): 
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if 


9. 


q key-"$s %s" $ ( class three, class, four ) 
g page config - searchKey(q key, page) 
cfg = json.loads(g page config) 


# 解析 JSON 
today = datetime.datetime.now().strftime('£Y-£m-$£d') 
try: 
for i in cfg['mods']["itemlist"]["data"]["auctions"]: 
detail url = "http:" + i["detail url"] 


# goods, base info 

goods. id - i["nid"] 

goods. name = i["raw title"] 

store id = i["user id"] 

store name - i['nick'] 

# online time = 

print "goods base info $sl$sl$s|$s|$s|$s|$s" $ 
(goods, id, goods name, store id, class one, 
class two, class three, today) 


# store base info 

# store id, store name 

is tmall - 1 if i["shopcard"]["isTmall"] else O0 

location city - i["item loc"] 

store url = i["shopLink"] 4 店铺 链接 

print "store base info $sl$sl$sl$sl$s" % 
( store id, store name, is tmall, location city, today) 


# store credit info 5 


credit as seller = i["shopcard"]["sellerCredit"] 

Score goods desc - i["shopcard"]["description"][0] 
Score service manner - i["shopcard"]["service"][0] 
Score express speed = i["shopcard"]["delivery"][0] 


# view price 

print "store credit info $sl$sl$sl$sl$s|$s" $ 
(store id, credit as seller, score goods desc, 
Score service manner, score express speed, today) 


4 goods, sale info 


price - i["view price"] 
express price - i["view fee"] 
except: 
pass 
name z= 0 mesmo "i 


if len(sys.argv) !- 3: 
print "Usage: $s taobao class line num download page num" $ sys.argv[0] 
sys.exit(0) 


line no = int(sys.argv[1]) 
page num = int(sys.argv[2]) 
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有 了 数据 之 后 ， 


表 一 


CREATE TABLE IF NOT EXISTS store base info 
store id STRING COMMENT “' 店 铺 ID ' ， 


) 


ROW FORMAT DELIMITED FIELDS TERMINATED BY 


f-open('tb class 2014.utf8.txt', 


line = 0 
for 1 in f.readlines(): 
line += 1 


'rÀ!) 


arr[3], 


arr[4], p) 


if line !- line no: 
continue 
arr 2 loStrip().split("Nt") 
p=0 
while p < page num: 
try: 
searchClass(arr[1], arr[2], 
except: 
time.sleep(random.uniform(30,960)) 
p += 1 


time.sleep (random.uniform(1,3)) 


(3) 交易 流水 不 太 好 获取 ， 所 以 我 们 用 随机 数 的 方式 


: 店铺 基础 信息 。 其 内 容 如 下 : 


store name STRING COMMENT ' 店 铺 名 '， 


is_tmall TINYINT COMMENT 


STORED AS INPUTFORMAT 


'org.apac 


OUTPUTFORMAT 


'org.apac 


; 


表 


) 


ROW FORMAT DELIMITED FIELDS TERMINATED BY 


credit as seller INT COMMENT 
Score goods desc INT COMMENT 


Score service manner INT COMMENT 


'1: 天 猫 ， 
location city STRING COMMENT ' 所 在 地 区 '， 


店铺 信用 、 服务 信息 。 LUN 其 内 容 如 下 : 


CREATE TA 


0: 淘 宝 ' 


he.hadoop.mapred.TextInputFormat ' 


BLE IF NOT EXISTS store credit info 
Store id STRING COMMENT ' 店 铺 ID ' ， 

' 卖家 信用 D 
“ENR 与 描述 相符 '， 

' 卖 家 的 服务 态度 ， 


真 充 。 我 们 生成 了 700 万 条 记录 。 
在 导入 之 前 ， 我 们 需要 准备 如 下 4 张 基础 表 。 


he.hadoop.hive.ql.io.RCFileOutputFormat ' 


( 


Score express speed INT COMMENT ' 卖 家 发 贷 的 速度 ' 


info update date DATE COMMENT 


STORED AS INPUTFORMAT 


'org.apache.hadoop.mapred.TextInputFormat' 


OUTPUTFORMAT 
'org.apache.hadoop.hive.ql.io.RCFileOutputFormat ' 


' 信息 最 后 更 新 日 期 ， 
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表 三 : 商品 基本 信息 ,包含 尽 可 能 全 的 商品 。 其 内 容 如 下 : 


CREATE TABLE IF NOT EXISTS goods. base info ( 
goods, id STRING COMMENT 商品 ID' ， 
goods, name STRING COMMENT ' 商 品名 '， 
store id STRING COMMENT ' 店 铺 ID'， 
class one STRING COMMENT “' 一 级 分 类 ' ， 
class two STRING COMMENT ' 二 级 分 类 '， 
class three STRING COMMENT ' 三 级 分 类 ' 
, info, acquire date DATE COMMENT ' 信 息 获取 时 间 ' 
, date added DATE COMMENT ' 上 如 时 间 ' 


) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' 
STORED AS INPUTFORMAT 
'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
'org.apache.hadoop.hive.qgl.io.RCFileOutputFormat' 


i 


表 四 : 交易 流水 ， 数 据 随机 填充 。 其 内 容 如 下 : 


CREATE TABLE IF NOT EXISTS goods. sale info ( 

goods, id STRING COMMENT ' 商 品 ID'， 

data, date DATE COMMENT ' 数 据 日 期 '， 

price INT COMMENT ' 价 格 x10'， 

day. sale count total INT COMMENT ' 当 天 总 销量 (分 下 面 3 类 ) ' 
) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' 
STORED AS INPUTFORMAT 
'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
'org.apache.hadoop.hive.gl.io.RCFileOutputFormat' 


i 


然后 就 可 以 在 beeline 中 使 用 LOAD DATA 命 令 导 入 数据 了 。 下 面 以 店铺 信息 表 为 例 给 出 代码 ， 
其 他 类 似 : 


LOAD DATA LOCAL INPATH '/root/book/data/store base info.txt' 
OVERWRITE INTO TABLE store base info; 


在 实际 数据 仓库 的 运营 过 程 中 , 数据 来 源 可 能 非常 多 ， 有 传统 RMDB 、 日 志文 件 或 者 其 他 系 
统 ， 此 时 可 以 借助 一 些 ETL 工 具 来 提升 效率 。 此 外 ， 数 据 每 天 都 会 更 新 ， 需 要 定期 导入 ， 此 时 可 
以 为 每 个 采集 周期 C 比如 一 天 ) 创建 一 个 分 区 ， 这样 不 同时 间 周 期 的 数据 物理 存储 分 离 ， 而 且 对 
于 只 涉及 部 分 分 区 的 计算 ， 可 以 避免 全 表 扫 描 ， 提 升 性 能 。 


5.3.3 用 Spark SQL 来 完成 日 常 运营 数据 分 析 
现在 ， 我 们 可 以 用 Spark SQL 来 回答 前 面 的 问题 了 ， 只 需要 写 SQL 即 可 。 
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1. 计算 最 近 7 天 销量 最 高 的 商家 
相关 SQL 语句 如 下 ， 除 了 销量 外 ， 这 里 还 顺带 计算 了 成 交 额 和 平均 成 交 价 格 : 
select 

b.store id, c.store name 


, Sum(a.day. sale count total) sale total num 
, sum(a.day. sale count total * a.price) sale total money 


, avg(a.price) avg price 
from 
goods sale info a left join goods base info b on a.goods id = b.goods id 
left join store base info c on b.store id - c.store id 
where 
a.data date »- date sub(to date(from unixtime(unix timestamp())),7) 
group by 
b.store id, c.store name 
order by sale total num desc 
limit 10; 


beeline 返 回 的 结果 如 图 5-8 所 示 。 


图 5-8 ”最 近 7 天 销量 最 高 的 商家 


2. 计算 最 近 7 天 上 线 新 品 最 多 的 10 家 店铺 
相关 SQL 语句 如 下 : 


select 

a.store id, b.store name 

, count (distinct(a.goods id)) new goods num 
from 

goods base info a left join store base info b on a.store id = b.store id 
where 


a.date added >= date sub(to date(from unixtime (unix timestamp())),7) 
and a.date added < to date(from unixtime (unix timestamp())) 
group by 


a.store id, b.store name 
order by new goods num desc 
limit 10; 
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执行 结果 如 图 5-9 所 示 。 


图 5-9 最近 7 天 上 线 新 品 最 多 的 10 家 店铺 


3. 计算 最 近 7 天 相对 之 前 7 天 销量 增长 最 快 的 店铺 
相关 SQL 语 句 如 下 : 


select 
b.store id, c.store name 
, sum( 
case 
when a.data date »- date sub(to date(from unixtime(unix timestamp())),7) 
then 
-- 最 近 一 个 周期 
a.day. sale count total 5 
else 
-- 减 去 前 一 个 周期 
0-a.day. sale count, total 
end 


) sale total inc 
from 
goods sale info a 
left join goods base info b on a.goods id - b.goods id 
left join store base info c on b.store id - c.store id 
where 
-- 取 最 近 两 个 周期 
a.data date >= date sub(to date(from unixtime(unix timestamp())),747) 
group by 
b.store id, c.store name 
order by sale total inc desc 
limit 10; 


执行 结果 如 图 $-10 所 示 。 
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图 5-10 最近 7 天 相对 之 前 7 天 销量 增长 最 快 的 店铺 
4. 计算 一 上 市 就 热卖 的 商品 
下 面 的 SQL 代 码 用 于 计算 在 最 近 一 个 月 新 上 架 的 商品 中 ， 涉 7 天 销量 最 高 的 商品 : 


select 
b.goods id 
, Sum(a.day. sale count total) sale total num 
, b.goods. name 

from 


goods sale info a left join goods base info b on a.goods id - b.goods id 
where 
a.data date >= date sub(to date(from unixtime(unix timestamp())), 30) 
and b.date added »- date sub(to date(from unixtime(unix timestamp())), 30) 
and a.data, date >= b.date added and a.data date <= date add(b.date added, 7) 
group by b.goods id, b.goods name 
order by sale total num desc 
limit 10; 


执行 结果 如 图 5-11 所 示 。 


图 5-11 最 近 一 个 月 新 上 架 的 商品 中 头 7 天 销量 最 高 的 商品 
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5. 计算 分 类 交易 量 最 高 的 10 个 商品 
下 面 的 SQL 语句 用 于 计算 分 类 “女装 男装 ”一 “ 女 式 上 装 ” 下 最 近 3 天 成 交 额 top10 的 商品 : 


select 
a.goods, id 
, Sum(a.day. sale count total) sale total 
, b.goods. name 
from 
goods sale info a 
left join goods base info b on a.goods id - b.goods id 
where 
a.data, date >= '2015-05-02' and a.data date <= '2015-05-04' 
and b.class one = "女装 男装 " and b.class two = " 女 式 上 装 " 
group by 
a.goods id, b.goods. name 
order by sale total desc 
limit 10; 


执行 结果 如 图 $-12 所 示 。 


图 5-12 “女装 男装 ”一 “ 女 式 上 装 ” 下 最 近 3 天 成 交 额 top10 的 商品 


6. 计算 最 近 7 天 ， 相 对 之 前 7 天 ， 销 量 增长 最 多 的 商品 
相关 SQL 语 句 如 下 : 


select 
a.goods id, b.goods. name 
, sum( 
case 
when a.data date »- date sub(to date(from unixtime(unix timestamp())),7) 
then 
-- 最 近 一 个 周期 
a.day. sale count total 
else 
-- 减 去 前 一 个 周期 


0-a.day. sale, count, total 
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end 
) sale total inc 
from 
goods sale info a left join goods base info b on a.goods id - b.goods id 
where 
-- 取 最 近 两 个 周期 
a.data date >= date sub(to date(from unixtime(unix timestamp())),747) 
group by 
a.goods id, b.goods name 
order by sale total inc desc 
limit TO; 


执行 结果 如 图 $-13 所 示 。 


图 5-13 ”最 近 7 天 相对 之 前 7 天 ， 销 量 增长 最 多 的 商品 


5.3.4 Spark SQL 在 大 规模 数据 下 的 性 能 表现 

在 5.3.3 节 ， 我们 基本 实现 了 一 个 数据 仓库 锥 形 ， 解 决 了 电 商 运营 的 6 个 问题 。 

当然 ， 基 于 MySQL 等 解决 方案 ,通过 分 库 分 表 的 形式 ， 我 们 也 能 完成 相应 的 任务 ,但 Spark 
SQL 的 优势 在 于 当 数 据 流 扩大 以 后 , 其 性 能 只 是 线性 增加 的 , 而 且 可 以 通过 平行 扩展 来 完成 扩容 ， 
而 不 用 涉及 数据 迁移 等 问题 。 

为 了 观察 Spark 的 性 能 表现 与 数据 大 小 的 关系 ， 我 们 尝试 将 数据 量 放 大 ( 简单 的 重复 复制 ) 
到 原来 的 10 倍 、100 倍 和 1000 倍 ， 来 看 看 Spark 的 性 能 表现 。 表 5-1 显 示 的 是 原始 数据 的 大 小 。 


表 5-1 原始 数据 的 大 小 


数据 文件 大 小 R 名 
220 MB goods sale_info 
40 MB goods base info 
7MB store base info 


5MB store credit info 
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这 里 以 场景 一 “计算 最 近 7 天 销量 最 高 的 商家 ”为 例 进 行 测试 ， 测 试 使 用 的 机 器 都 比较 旧 而 
且 配 置 一 般 ， 只 有 6 个 计算 节点 〈 存 储 节 点 共用 机 器 )， 每 台 机 器 8 核 CPU， 可 用 内 存 8 GB, xut 
机 器 在 同一 个 机 房 ， 使 用 普通 千 兆 网 卡 进行 通信 。 表 5-2 是 数据 放大 之 后 的 运行 时 间 。 


表 5-2 数据 放大 之 后 的 运行 时 间 


测试 数据 的 倍数 数据 量 用 时 ( 秒 ) 用 时 相对 增长 倍数 总 增长 倍数 
1 0.2 GB x 0.04 GB 10 
10 2GB x 0.4GB 56 5.6 5.6 
100 20GB x 4 GB 550 9.8 55 
1000 200 GB x 40 GB 5635 10.2 564 


即便 数据 增长 至 1000 倍 ，SQL 中 JOIN 操作 的 左右 两 张 表 数 据 都 增长 1000 倍 ， 总 的 用 时 的 增 
长 还 是 与 数据 增长 的 倍数 持平 ， 而 且 虽 然 在 1000 倍 时 数据 量 已 经 超过 可 用 内 存 总 量 的 4 倍 , 但 计 
算 依然 可 以 继续 并 保持 线性 。 因 此 ， 可 以 得 出 结论 : Spark 的 性 能 基本 上 与 数量 大 小 保持 线性 关 
系 ， 这 样 的 好 处 就 非常 明显 ， 使 得 未 来 集群 的 计算 能 力 的 扩充 变 得 非常 简单 ， 只 需要 增加 计算 
节点 即 可 。 
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Spark 流 式 计 算 


前 面 提 到 的 Spark 计 算 或 Spark SQL 计算 , 它们 类 似 的 地 方 是 涉及 的 数据 量 庞大 , 计算 时 间 长 ， 
典型 场景 下 一 次 计算 的 耗 时 一 般 是 数 分 钟 或 者 数 小 时 。 但 在 实际 业务 场景 中 , 还 有 一 类 称 作 流 式 
计算 的 应 用 , 需要 实时 对 大 量 数据 进行 快速 处 理 , 最 明显 的 特点 就 是 处 理 周期 短 , 一 般 是 分 钟 级 ， 
甚至 秒 级 、 毫 秒 级 ， 而 且 是 7 x 24 小 时 连续 不 断 地 进行 计算 。 

对 于 实时 流 式 数据 计算 ，Spark 通 过 Spark Streaming 组 件 提供 了 支持 。Spark Streaming 基 于 
Spark 核 心 ， 具 备 可 扩展 性 、 高 吞吐 量 、 自 动容 错 等 特性 ， 数 据 来 源 支 持 Kafka、Flume Twitter, 
ZeroMQ 、Kinesis 或 TCP socket 等 ， 处 理 时 可 以 使 用 map reduce, 、join 、window 等 高 级 函数 来 实 
现 复杂 逻辑 ， 结 果 可 以 写 人 文件 系统 、 数 据 库 或 其 他 实时 展示 系统 。 而 且 由 于 Spark 平 台 的 高 度 
整合 性 ， 我 们 还 可 以 使 用 前 面 提 到 的 Spark SQL 、DataFrame， 以 及 后 面 即将 介绍 的 机 器 学 习 、 图 
计算 等 Spark 高 级 算法 。 图 6-1 显 示 了 Spark Streaming 计 算 的 基本 过 程 。 


HDFS/S3/NFS 


Spark Streaming 


自 定义 输入 流 


图 6-1 Spark Streaming 计 算 过 程 


在 内 部 ，Spark Streaming 接 收 实时 数据 ， 按 周期 将 数据 分 成 多 批 次 ( batch )， 按 批 次 提交 给 
Spark 核 心 来 调度 计算 ， 如 图 6-2 所 示 。 
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FARM 拆 成 小 批 次 结果 按 小 
输入 数据 流 提交 执行 批 次 输出 


Spark Streaming LI L] D» Spark z|3& L1 L1 O 


图 6-2 Spark Streaming 按 批 次 执行 


Spark Streaming 使 用 的 数据 抽象 是 pstream (discretized stream )， 它 表示 连续 的 数据 流 ， 但 
内 部 其 实 是 通过 RDD 序 列 来 存储 的 。 


Spark Streaming 计 算 支持 Scala、Java、Python 语 言 ， 和 暂时 不 支持 R。 


6.1 Spark Streaming 基础 知识 


本 节 通 过 一 个 简单 示例 介绍 如 何 开发 Spark 流 式 计算 程序 。 


6.1.1 入 门 简单 示例 


在 介绍 完整 的 Spark 流 式 计 算 之 前 ， 我 们 先 给 出 一 个 最 简单 的 示例 : Spark Streaming 版 本 的 
WordCount。 使 用 Linux 下 的 终端 工具 netcat ( 简称 nc ) 启动 一 个 TCP 服 务 ， 用 户 手工 输入 文本 ， 
Spark 通 过 tcp socket 读 取 文 本 、 统 计 词 频 并 输出 ， 基 本 过 程 如 图 6-3 所 示 。 


输入 文本 


Spark Streaming 
[一 >| rerit o) >| 每 5 和 计算 一 次 癌 频 ， 


并 输出 


图 6-3 ”Spark Streaming 简 单 示 例 


先 启动 TCP socket， 在 Linux 下 通过 nc 启动 ， 端 口 为 9999: 


nc -lk 9999 


然后 启动 spark-shell: 


./bin/spark-shell 


在 spark-shell 中 输入 如 下 代码 ， 运 行 一 个 Spark Streaming 版 WordCount 程 序 : 
// 导入 类 


import org.apache.spark.SparkConf 
import org.apache.spark.streaming.(Seconds, StreamingContext] 


// 创建 StreamingContext， 基 于 Shell 下 默认 的 SparkContext 
val ssc = new StreamingContext(sc, Seconds(5)) 


// 创建 DStream， 这 是 Streaming 计 算 下 的 RDD 
val lines = ssc.socketTextStream("localhost", 9999) 
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// 基本 的 操作 函数 与 RDD 同 名 

val words = lines.flatMap( .split(" ")) 
val pairs - words.map(word -» (word, 1)) 
val wordCounts = pairs.reduceByKey( + ) 


// 打印 结果 到 标准 输出 ， 只 打印 DStream 中 每 个 RDD 的 前 10 个 元 素 
// 注意 ，print 不 同 于 RDD 中 的 Action 操 作 ， 不 会 触发 真正 的 调度 执行 


wordCounts.print() 


// 这 里 才 正 式 启 动 计算 
ssc.start() 


// 等 待 执 行 结束 (出错 或 Ctrl-C 退 出 ) 


Ssc.awaitTermination() 


现在 ， 我 们 可 以 在 前 面 启 动 的 nc 客户 端 中 输入 文本 了 : 


hello world !!! 


回 到 spark-shell 界 面 ， 我 们 可 以 看 到 这 样 的 输出 : 


(hello,1) 
(world,1) 
(111,1) 


6.1.2 ”基本 概念 


1. StreamingContext 


StreamingContext {Æ Spark Streaming 编 程 的 最 基本 环境 对 象 ， 就 像 Spark 编 程 中 的 
SparkCcontext 一 样 。 streamingContext 提 供 最 基本 的 功 角 EAH ” 包括 从 各 途径 创建 最 基本 的 
对 象 Dstream ( 就 像 Spark 编 程 中 的 RDD )。 


人 生成 一 个 sparkconf 实 例 ， 设置 程序 名 ， 指 定 运 
行 周期 ( 示例 中 是 5 秒 )， 这 样 就 可 以 了 : 


val conf = new SparkConf().setAppName("SparkStreamingWordCount") 
// 注 : spark-shell 下 ， 需 要 先 调用 sc.stop () 来 停止 默认 的 SparkContext， 

// 因为 默认 同时 只 能 运行 一 个 SparkContext 

val ssc = new StreamingContext (conf, Seconds(5)) 


运行 周期 为 5 秒 , 表示 流 式 计 算 每 间隔 5 秒 执行 一 次 。 这 个 时 间 的 设置 需要 综合 考虑 程序 的 延 
时 需求 和 集群 的 工作 负载 ， 应 该 大 于 每 次 的 运行 时 间 。 


StreamingContext 还 可 以 从 一 个 现存 的 org .apache.spark.SparkContext 创 建 而 来 ， 
并 保持 关联 ， 比 如 上 面 示例 中 的 创建 方法 : 


// sc 是 一 个 已 经 存在 的 SparkContext 
val ssc = new StreamingContext (sc, Seconds(5)) 
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后 面 可 以 通过 ssc .sparkContext 来 获取 这 个 对 象 。 

StreamingContext 创 建 好 之 后 ， 还 需要 下 面 这 几 步 来 实现 一 个 完整 的 Spark 流 式 计算 : 

(1) 创建 一 个 输入 pstream， 用 于 接收 数据 ; 

(2) 使 用 作用 于 Dstream 上 的 Transformation 和 Output 操 作 来 定义 流 式 计算 (Spark 程序 是 使 用 

Transformation 和 Action 操 作 ); 

(3) 启动 计算 ， 使 用 streamingContext .start (); 

(4) 等 待 计 算 结 束 ( 人 为 或 错误 )， 使 用 streamingCcontext.awaitTermination1(); 

(5) 也 可 以 手工 结束 计算 ， 使 用 streamingContext.stop()。 

2. DStream 抽 象 

DStream ( discretized stream ) 是 Spark Streaming 的 核心 抽象 ， 类 似 于 RDD 在 Spark 编 程 中 的 
地 位 。DStream 表 示 连 续 的 数据 流 ， 要 么 是 从 数据 源 接收 到 的 输入 数据 流 ， 要求 是 经 过 计算 产生 
的 新 数据 流 。Dstream 的 内 部 是 一 个 RDD 序 列 ， 每 个 RDD 对 应 一 个 计算 周期 。 比 如 ， 在 上 面 的 
WordCount 示 例 中 ,每 5 秒 一 个 周期 , 那么 每 5 秒 的 数据 都 分 别 对 应 一 个 RDD， 如 图 6-4 所 示 ， 图 中 
的 时 间 点 1、2、3 、4 代 表 连 续 的 时 间 周 期 。 

RDD @ 时 间 1 RDD @ 时 间 2 RDD @ 时 间 3 RDD @ 时 间 4 


Ferd 点 0 到 1 Fr 点 1 到 2 Pra 点 2 到 [d 
DStream- gy, Ferd 的 数据 区 到 区 到 区 下 的 数据 "m 


图 6-4 Dstream 内 部 是 RDD 序 列 


所 有 应 用 在 DStream 上 的 操作 , 都 会 被 映射 为 对 DStream 内 部 的 RDD 上 的 操作 , 比如 上 面 的 
WordCount 示 例 中 对 lines DStream 的 flatMap 操 作 , 会 被 映射 到 1ines 内 部 的 RDD 上 ,如 图 6-5 
所 示 。 


lines 
DStream 


words 
DStream 


图 6-5 ”Dstream 应 用 f1atMap 操 作 


RDD 操 作 将 由 Spark 核 心 来 调度 执行 ,但 Dstream 屏 项 了 这 些 细 节 ， 给 开发 者 更 简洁 的 编程 
体验 。 当 然 ， 我 们 也 可 以 直接 对 Dstream 内 部 的 RDD 进 行 操作 (后面 会 讲 到 )。 
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3. 输入 DStream 


输入 Dstream 是 DSstream 的 起 始 ， 程序 中 的 第 一 个 DStream 用 于 从 各 类 数据 源 接收 数据 ， 比 
如 上 面 WordCount 示 例 中 的 1ines 就 是 一 个 输入 DStream, 从 netcat TCP Socket 中 读 取 数据 。 而且， 
输入 Dstream 中 包含 一 个 接收 器 对 象 ， 用 于 读数 据 并 缓存 在 Spark 内 存 中 来 等 待 进一步 处 理 。 


Spark Streaming 支 持 3 种 输入 DStream， 如 下 。 


O 基本 型 。 在 streamingcontext 的 API 中 直接 提供 ， 包 括 文 件 系 统 、Socket、Akka actor 
口 高 级 型 。 需 要 通过 额外 的 库 来 实现 ， 比 如 Kafka 、Flume Kinesis, 、Twitter， 而 且 在 编译 时 
需要 设置 依赖 ， 并 打包 进来 。 
口 自 定 义 型 。 完 全 由 用 户 自 行 指定 并 编码 实现 。 

当然 ， 同 时 使 用 多 个 输入 pstream 也 是 可 以 的 ， 创 建 它 们 就 好 了 ， 只 是 要 保证 分 配 的 core 的 
数量 要 大 于 输入 DStream 的 数量 。 

e 基本 输入 DStream 


前 面 示例 中 的 socketTextsStream 就 是 一 种 基本 型 的 输入 pstream。 此 外 ， 我 们 还 可 以 用 
filestream 生 成 从 文件 或 Akka actor 读 取 数 据 的 输入 DStream。 


从 文件 生成 输入 pstream 的 最 简单 方法 是 使 用 方法 textFilestream， 接 收 一 个 HDFS 文 件 
系统 兼容 的 目录 作为 参数 ，Spark 会 实时 监控 这 个 目录 ， 以 文件 为 单位 。 新 出 现 的 文件 会 被 按照 
文本 文件 格式 读 取 到 Spark 内 存 中 。 对 于 文件 的 几 点 要 求 如 下 : 

口 目录 中 的 所 有 文件 的 格式 相同 ; 

O 只 处 理 目 录 下 的 文件 ， 不 包括 子 目 录 下 的 文件 ; 

O 文件 进入 目录 的 方式 必须 是 原子 的 ， 比 如 被 从 其 他 目录 移动 或 重 命名 得 来 ; 

口 文件 进入 目录 之 后 ， 建 议 不 要 再 被 修改 ， 因 为 只 会 被 读 取 一 次 ,新 追加 的 内 容 不 会 被 读 取 。 
文件 型 输入 Dstream 的 完整 调用 方式 如 下 (E: Python 不 支持 下 面 的 形式 ， 只 支持 


textFileStream): 


StreamingContext.fileStream[KeyClass, ValueClass, InputFormatClass](dataDirectory) 
e 高 级 输入 DStream 


高 级 类 型 的 输入 pstream 并 不 由 Spark 提 供 ， 而 是 由 其 他 项 目 提供 ， 需 要 在 编译 时 包含 进来 。 
比如 ， 若 你 想 使 用 Kafka， 需 要 在 编译 时 引用 spark-streaming-kafka 2.10， 下 面 是 使 用 示例 ， 详 细 
Ti n] DLE Kafka API 文 档 : 


import org.apache.kafka.clients.producer. {ProducerConfig, KafkaProducer, 
ProducerRecord) 

// zkQuorum 

// group 
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// zkQuorum : ZooKeeper 服 务 器 列表 

// group : Kafka 消 费 者 组 名 

// topics : 链表 ， 包 人 钨 一 个 或 多 个 Kafka 主 题 ， 用 于 消费 

val topicMap = topics.split(",").map((, , numThreads.toInt)).toMap 

val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(. . 2) 


当然 ， 除 了 编译 时 的 链接 和 编程 ， 我 们 还 需要 运行 一 个 Kafka 集 群 用 于 提供 数据 源 ， 所 以 外 
部 高 级 数据 源 的 使 用 都 需要 这 3 步 : 

(1) 有 可 用 的 外 部 系统 提供 数据 源 ; 

(2) 编程 使 用 外 部 输入 Dstream; 

(3) 编译 时 链接 外 部 库 

e 接收 可 靠 性 

在 使 用 数据 源 时 ， 我 们 还 需要 留意 一 下 可 靠 性 。 有 一 类 数据 源 本 身 就 是 可 靠 的 ， 比 如 Kafka 
和 Flume。 它 们 对 于 传输 的 数据 有 确认 机 制 ， 如 果 我 们 能 够 利用 好 这 一 机 制 ， 恰 当地 对 收 到 的 数 
据 进 行 确认 ， 那 么 可 以 确保 数据 在 任何 异常 情况 下 都 不 会 丢失 。 

4. DStream 操 作 

DStream 操 作 分 两 类 。 


口 Transformation 操 作 。 类 似 于 RDD 的 Transformation ， 对 一 个 Dstream 进 行 计 算 ， 输 出 新 


的 DStream。 
口 output 操 作 。 类 似 于 RDD 的 Action 操 作 ， 将 DStream 输 出 至 外 部 系统 ， 比 如 文件 系统 、 数 
据 库 或 BI 报表 系统 。 


€ DStream Transformation 操 作 


O 


DStream 支 持 的 Transformation 操 作 有 map、flatMap、filter、repartition、union、 


count, reduce, countByValue , reduceByKey , join, Cogroup 、 transform, 
updateStateByKey， 大 部 分 的 使 用 方法 与 RDD 的 同名 方法 类 似 ， 几 个 比较 特殊 的 见 下 面 的 详 
细 讲 解 。 


口 transform 


DStream 内 部 其 实 是 RDD 序 列 ，transform 提 供 了 直接 操作 DStream 内 部 RDD 的 方法 ， 对 
于 那些 pstream 没 有 提供 的 RDD 操 作 ， 可 以 通过 transform 调 用 ， 非 常 灵活 。 比 如 pstream 没 
有 提供 与 其 他 RDD 进 行 join 操 作 的 方法 ， 通过 transform 可 以 实现 : 

// rdd2 是 一 个 已 经 存在 的 RDD 

val joinedDStream = d.transform(rdd => ( 

rdd.join(rda2) 


} 
- UpdateStateByKey 
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由 于 流 式 计 算是 连续 进行 的 ， 很 大 可 能 都 是 7 x 24 小 时 不 间断 的 ， 因 此 可 能 需要 保存 一 些 状 
态 。 简 单 的 全 局 广播 变量 显然 是 不 够 的 ， 所 以 Spark Streaming 提 供 了 专门 的 状态 更 新 方法 


ve o 


updaateSstateByKey， 比 如 我 们 可 以 改造 一 下 前 面 的 WordCount 示 例 ， 不 仅 统计 每 次 新 接收 到 的 
数据 ， 而 且 让 词 频数 据 可 以 累加 。 先 定义 一 个 状态 更 新 函数 : 


def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = ( 
val preCount = runningCount.getOrElse(0) // 历史 累计 值 
val newCount = newValues.sum // 当前 周期 新 数据 的 值 
Some(newCount + preCount) // 再 次 累加 


) 
然后 就 可 以 调用 了 ; 不 需要 初始 值 , 因为 updateFunction 里 已 经 处 理 了 (看 到 getOrElse (0) 
[fH :;) ): 


val runningCounts = pairs.updateStateByKey [Int] (updateFunction _) 


注意 使 用 updateStateByKey 必 须 配置 检查 点 (checkpoint) 目录 ， 否 则 会 报错 ， 详 情 请 参考 
6.2.2 节 。 


OQ 窗口 (window) 操作 

流 式 计算 是 周期 性 进行 的 ,有 时 除了 处 理 当 前 周期 的 数据 , 还 需要 处 理 最 近 几 个 周期 的 数据 ， 
这 时 就 需要 窗口 操作 方法 了 。 我 们 可 以 设置 数据 的 滑动 窗口 , 将 数 个 原始 Dstream 合 并 成 一 个 窗 
口 DStream， 如 图 6-6 所 示 。 


时 间 1 时 间 2 时 间 3 时 间 4 时 间 5 


原始 


DStream 


窗口 


DStream 


图 6-6 ”窗口 Dstream 


窗口 通过 如 下 两 个 参数 来 确定 。 
a 窗口 长 度 。 即 窗口 跨越 的 周期 次 数 ， 上 图 示例 中 是 3。 
口 滑动 区 间 。 从 当前 窗口 到 下 一 个 窗口 间隔 的 周期 数量 ， 上 图 示例 中 是 2。 


如 果 这 两 个 参数 的 值 都 是 1， 那 么 效果 跟 不 使 用 窗口 一 样 。 每 个 窗口 内 的 所 有 周期 数据 都 会 
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合并 成 一 个 RDD 保 存在 DStream 中 ,上 图 中 每 次 窗口 处 理 3 个 周期 的 数据 ,每 次 滑 过 2 个 周期 , 而 
且 计 算 周期 也 比 原始 值 扩 大 了 一 倍 。 

我 们 可 以 使 用 窗口 函数 C 比如 windowLength、slideInterval ) 来 生成 一 个 带 窗 口 的 
DStream, 然后 当 作 普通 Dstream 来 用 。 男 外 也 可 以 直接 使 用 加 窗口 参数 的 专用 方法 ,常用 的 有 


countByWindow, reduceByWindow, reduceByKeyAndWindow, reduceByKeyAndWindow, 


countByValueAndWindowo 
e Output 操 作 


Output 操 作 将 Dstream 结 果 输 出 至 外 部 系统 ， 这 也 意味 着 一 段 DStream 计 算 的 结束 。 目 前 可 
用 的 Output 操 作 如 下 。 
口 print()。 调 试 测 试用 ， 打 印 Dstream 中 各 RDD 的 头 部 10 个 成 员 ，print 也 可 以 添加 一 
个 参数 指定 输出 的 头 部 成 员 数 量 ， 比 如 print (30) 。 
口 saveAsTextFiles (prefix，[suffix])。 保存 为 文本 文件 、 本 地 磁盘 系统 或 HDFS， 
文件 名 格式 是 “prefix-TIME IN MS[suffix]" - 
口 saveAsObjectFiles(prefix, [suffix]l). 保存 为 SequenceFile 格 式 ， 文件 名 格式 同 
AES 
O foreachRDD(func). had 的 Output 操 作 ， 传 人 一 个 函数 ， 直 接 作 用 在 RDD 上 。 传 人 
的 函数 可 以 实现 任意 功能 ， 比 如 写 文件 、 写 DB, 或 者 通过 网 络 发 送出 去 。 需 要 注意 的 是 ， 
deco T NINE FHJ, [H£uncrP—BHt 2-8 RHIRDDITJ 
Action 操 作 ， 那 却 是 在 worker 中 执行 的 。 


6.1.3 ”高 级 操作 

1. 缓存 与 持久 化 

DStream 也 可 以 像 RDD 一 样 非常 简单 地 缓存 到 内 存 中 , 我 们 统一 称 作 持久 化 , 对 应 的 级 别 是 
内 存 。 调 用 persist () 可 以 把 DStream 及 包含 的 RDD 全 部 缓存 到 内 存 中 ， 这 对 于 那些 需要 被 反 
复 使 用 的 DStream 尤 其 重要 。 窗口 函数 和 updqateStateByKey 默 认 会 自动 持久 化 ， 不 需要 调用 
persist () ， 因 为 数据 的 确 会 被 多 次 使 用 。 

对 于 从 网 络 接收 数据 的 输入 Dstream ( 比如 Kafka、Flume 、sockets 等 )， 默 认 的 持久 化 级 别 
是 复制 数据 到 两 个 节点 上 ， 以 确保 容错 能 

2. 打包 、 发 布 和 监控 

e 编译 链接 
使 用 Spark 组 件 的 程序 ， 在 编译 打包 时 都 需要 配置 依赖 ， SparkStreaming 也 不 例外 。 
SBT 的 配置 方法 : 


libraryDependencies += "org.apache.spark" $ "spark-streaming 2.10" $ "1.4.1" 
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Maven 的 配置 是 : 


<dependency> 
«groupId»org.apache.spark«/groupId» 
«artifactlId»spark-streaming 2.10«/artifactlId» 
«version»1.4.1«/version» 

</dependency> 


如 果 使 用 了 其 他 类 型 的 输入 数据 源 ， 也 需要 包含 进来 ， 常 用 的 数据 源 对 应 的 包 如 下 。 


Q Flume: spark-streaming-flume 2.10。 
口 Kafka: spark-streaming-kafka 2.10。 
OD MQTT: spark-streaming-mqtt 2.10。 

Q Twitter: spark-streaming-twitter 2.10。 


口 ZeroMQ: spark-streaming-zeromq 2.10。 


如 果 想 查看 Spark 支 持 的 所 有 第 三 方 包 ， 可 以 在 http://search.maven.org/ 上 输入 g: 
spark" AND v:"1.4.1" 进 行 搜 索 。 


e 部 署 


"org.apache. 


为 了 让 Spark 流 式 计算 程序 在 集群 上 也 能 正常 工作 ， 还 有 一 些 额 外 事项 需要 注意 。 

O 在 打包 JAR 包 时 ， 我 们 需要 提供 Spark 自 身 之 外 的 其 他 所 有 第 三 方 jar 包 。 比 如 若 使 用 了 
Kafka, 不 但 要 提供 spark-streaming-kafka 2.11-1.4.1.jar， 还 要 提供 它 依赖 的 其 他 Spark 本 身 
不 提供 的 包 。 解 决 方法 : 可 在 用 spark-supbmit 提 交 时 使 用 --jars 选 项 附带 上 这 些 依赖 


的 包 ， 或 者 在 编译 时 使 用 静态 编译 的 方式 ， 将 所 有 依赖 的 包 全 部 打包 进去 。 


窗口 函数 ， 需 要 缓存 的 会 更 多 。 
Q 配置 检查 点 时 , 需要 一 个 HDFS API 兼 容 的 文件 系统 目录 ( 比如 Hadoop HDFS、 


ByKeyo 


口 配置 足够 的 内 存 资源 ， 因 为 每 个 周期 接收 到 的 数据 都 会 缓存 在 内 存 中 ， 而 且 如 果 使 用 了 


S3 等 ), 请 


确保 有 相应 的 系统 可 以 使 用 。 有 些 操作 要 求 必须 配置 检查 点 ， 比 如 updatestate- 


口 配置 Driver 程 序 自动 重启 。 流 式 计 算 一 般 都 是 一 直 运 行 的 ， 而 Driver 程 序 是 Spark 程 序 的 中 


枢 ， 只 运行 在 某 一 个 节点 上 。Driver 程 序 本 身 异 常 退出 或 者 异常 ， 都 可 能 导致 流 式 计算 中 


断 。 每 种 集群 模式 都 提供 这 种 功能 ，Standalone 模 式 下 提交 时 可 以 使 用 --deploy-mode 


cluster --supervise 选 项 ，YARN 下 选择 yarn-cluster，Mesos 下 可 以 通 


来 协助 实现 。 


过 Marathon 


Spark 从 1.2 版 开始 ， 支 持 WAL ( Write Ahead Logs )。WAL 是 一 种 避免 数据 丢失 的 方法 ， 开 启 
之 后 ， 所 有 收 到 的 数据 在 处 理 之 前 都 会 先 写 到 检查 点 目录 下 ， 这 样 可 以 确保 在 Driver 恢 复 期 间 数 


据 不 丢失 , 设置 spark.streaming.receiver.writeAheadLog.enable 为 true 可 


能 , 但 代价 是 降低 了 数据 接收 的 吞吐 量 , 不 过 可 以 采用 并 发 接收 的 方式 来 降低 影响 。 


以 开局 此 功 
此 外 ,如果 
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FJA TWAL, 接收 数据 时 的 复制 机 制 可 以 关闭 了 , 因为 两 者 的 目标 是 相同 的 ; 关闭 复制 的 方法 是 


设置 输入 pStream 的 存储 级 别 为 StorageLevel .MEMORY_AND_DISK_SER。 


e 更 新 程序 代码 


流 式 计算 一 般 都 长 期 运行 , 但 偶尔 也 会 更 新 一 下 计算 逻辑 。 虽 然 更 新 程度 一 般 也 就 不 到 一 分 


钟 的 时 间 , 但 是 会 重启 程序 ， 如 果 想 要 在 重启 过 程 中 不 丢失 数据 ， 需 要 做 一 些 特殊 处 理 ， 我 们 有 


如 下 两 种 办 法 。 


O 新 旧 程 序 同时 运行 。 先 不 要 停止 旧 的 程序 ， 直 接 启 动 新 的 程序 ， 待 新 的 程序 运行 之 后 ， 


再 停止 旧 的 程序 。 这 种 方式 要 求 数据 源 文 持 同 时 向 新 、 旧 两 个 版 本 的 程序 发 数据 ， 而 且 


程序 上 也 要 考虑 这 种 特殊 场景 。 
口 先 停止 旧 的 程序 再 启动 新 的 程序 。 但 要 保证 
接收 到 的 所 有 数据 都 已 经 处 理 完毕 了 ， 人 然后 


日 的 程序 是 被 优雅 地 关闭 的 ， 确 保 关 闭 之 前 


再 启动 新 的 程序 ， 接 着 继续 处 理 。 这 种 方式 


只 适用 于 支持 缓存 数据 功能 的 数据 源 ， 比 如 Kafka 、Flume， 这 样 程序 中 断 这 段 时 间 的 数 
据 可 以 临时 缓存 一 下 ， 待 新 程序 启动 后 继续 发 送 。 还 有 个 检查 点 信息 的 问题 ， 启 动 新 的 


程序 时 ， 在 读 取 前 一 个 程序 的 检查 点 信息 时 可 能 出 错 ， 因 为 检查 点 中 有 一 些 对 象 的 序列 


化 数据 ， 新 的 对 象 结构 可 能 已 经 改变 了 ; 解决 的 办 法 是 要 么 用 新 的 检查 点 目录 ， 要 么 是 


删除 旧 的 检查 点 目录 下 的 所 有 内 容 。 
e 监控 流 式 计算 程序 运行 


Spark 为 每 个 运行 中 的 程序 都 提供 了 一 个 Web 界 面 ， 用 于 监控 程序 的 运行 ，Spark Streaming 程 


序 运 行 时 ， 界 面 上 会 多 出 一 个 名 为 Streaming 标 签 页 ， 


Spa 和 mu Jobs Stages Storage 


专用 于 流 式 计算 ， 如 图 6-7 所 示 。 


Environment Executors Streaming 


图 6-7 Spark Web 界 面 增加 的 一 个 Streaming 标 签 


我 们 需要 重点 关注 两 个 数据 : Scheduling Delay 和 Processing Time ( 如 图 6-8 所 示 )。 这 两 者 加 


起 来 就 是 Spark Streaming 一 次 周期 计算 的 总 时 间 。 


ms 


Scheduling Delay ( 引 300.00 
Avg: 1 ms 


9 5 

500.004 - 1 
400.004 
Processing Time (?) 300.00 < 
Avg: 218 ms 200.00 4 
100.00 4 


0 5 10 15 #batches 


16:48:55 


! E 
16:48:55 
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如 果 这 两 个 时 间 在 持续 增加 , 或 者 两 者 之 和 超过 了 创建 screamingcontext 时 设置 的 周期 间 
隔 时 间 ， 那 很 可 能 是 集群 资源 紧张 了 ， 可 以 增加 周期 ， 或 者 优化 集群 或 程序 。 


6.2 深入 理解 Spark Streaming 


6.2.1 DStream 的 两 类 操作 


前 面 我 们 提 到 ，Dstream 内 部 其 实 是 RDD 序 列 ， 所 有 的 DStream 操 作 最 终 都 转换 为 RDD 操 

通过 分 析 源 码 ， 我 们 可 以 进一步 帘 视 这 种 转换 是 如 何 进行 的 。 

DStream 有 一 些 与 RDD 类 似 的 基础 属 必 

a 依赖 的 其 他 DStream 列 表 ; 

口 生成 RDD 的 时 间 间 隔 ; 

口 一 个 名 为 compute 的 计算 函数 ， 用 于 生成 RDD， 类 似 于 RDD 的 compute。 
DStream 的 操作 分 为 两 类 ， 一 类 是 Transformation 操 作 ， 对 应 RDD 的 Transformation 操 作 。 以 

flatMap 为 例 , DStream 中 的 flatMap 不 过 是 返回 了 一 个 新 的 DSstream 派 生 类 

FlatMappedDStream， 这 一 点 跟 RDD 的 flatMap 非 常 类 似 。DStream 的 flatMap 定 义 如 下 : 


作 


o 


FE 


/** 
* 将 输入 的 函数 作用 到 DStream 的 所 有 成 员 ， 并 展开 返回 值 ， 返 回 一 个 新 的 DStream 
x 
def **flatMap**[U: ClassTag](flatMapFunc: T => Traversable[U]): DStream[U] = 
Sssc.withScope ( 
**new FlatMappedDStream**(this, context.sparkContext.clean(flatMapFunc)) 


} 


而 FlatMappedDstream 的 实现 也 很 简单 ， 只 有 十 几 行 代码 ， 主 要 作用 是 像 RDD 一 样 维护 计 
算 关 系 链 ， 完 整定 义 如 下 : 


private[streaming] 

class **FlatMappedDStream**[T: ClassTag, U: ClassTag]( 
parent: DStream[T], 
flatMapFunc: T -» Traversable[U] 
) extends DStream[U](parent.ssc) ( 


override def dependencies: List[DStream[ ]] = List(parent) 
override def slideDuration: Duration - parent.slideDuration 
override def compute(validTime: Time): Option[RDD[U]] = ( 


parent.getOrCompute (validTime).map( .flatMap(flatMapFunc)) 
j 
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其 中 compute 调 用 Dstream 的 getorCcompute 方 法 用 于 读 取 RDD 的 内 存 ， 要 么 放 到 缓存 中 ， 
色调 用 接 口 函数 compute 计 算 生 成 。 


DStream 另 外 一 类 操作 是 Output 操 作 ，Output 操 作 才 会 触发 pstream 的 实际 执行 ， 作 用 非常 
类 似 于 RDD 的 Action 操 作 ， 那 么 这 两 者 之 间 是 什么 关系 呢 ? 我 们 来 看 一 下 最 简单 的 print 操 作 ， 
定义 如 下 : 


/** 
* 打印 DStream 内 每 个 RDD 的 前 面 num 个 成 员 
* 此 外 ， 输出 类 型 的 操作 需要 标记 一 下 (最 后 的 register 调 用 ) ， 以 确保 里 面 的 RDD 都 会 被 生成 
* 
def **print**(num: Int): Unit = ssc.withScope ( 
def foreachFunc: (RDD[T], Time) -» Unit - ( 
(rdd: RDD[T], time: Time) => ( 
val firstNum = rdd.**take**(num + 1) 
println("--------------------------------2----------- ") 
println("Time: " + time) 
println("--------------------------------2-2-2--------- "y 
firstNum.**take** (num) .foreach (println) 
if (firstNum.length > num) println("...") 
println() 


} 
J 


new ForEachDStream(this, context.sparkContext.clean(foreachFunc)).register() 


) 


我 们 看 到 Dstream.print 调 用 了 RDD.take 方 法 ， 而 后 者 正 是 一 个 Action 操 作 ， 是 不 是 所 有 
的 Dstream 输 出 操作 最 后 都 会 调用 一 个 RDD 的 Action 操 作 呢 ?我 们 再 看 看 saveAsTextFile 和 
saveAsObjectFiles， 它 们 没有 直接 调用 RDDaction 操 作 ,， 但 是 通过 foreachRDD 来 实现 ， 传 
和 人 的 函数 中 调用 了 RDD 的 Action。saveAsTextFile 的 定义 如 下 : 


/** 

* 将 DStream 中 的 所 有 RDD 保 存 为 文本 文件 ， RDD 成 员 转 换 为 相应 的 字符 串 形式 
* 各 周期 使 用 不 同 的 文件 名 ， 格 式 是 : prefix 参 数 指定 的 前 级 -以 之 秒 为 单位 的 时 间 .suffix 参 数 指 定 的 后 级 
žy 

def saveAsTextFiles(prefix: String, suffix: String = ""): Unit = ssc.withScope { 

val saveFunc = (rdd: RDD[T], time: Time) => ( 
val file - rddToFileName(prefix, suffix, time) 
**rdd**.**saveAsTextFile**(file) 


) 


this.foreachRDD(saveFunc) 


) 


相 比 之 下 ， 另 外 一 个 最 灵活 的 Output 操 作 foreachRDD 完 全 依赖 传人 的 函数 来 实现 功能 ， 所 
以 对 于 foreachRDD 的 使 用 就 有 要 求 了 : 至 少 包含 一 个 RDD Action 调 用 。 因 为 Spark Streaming 的 
调度 是 由 Output 方 法 触发 的 ， 每 个 周期 调用 一 次 所 有 定义 的 Output 方 法 ，Output 内 部 再 调用 RDD 
Action 最 终 完 成 计算 ， 否 则 程序 只 是 接收 数据 ， 然 后 丢弃 ， 不 会 执行 计算 。 
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6.22 ”容错 处 理 

1. 背景 知识 

在 讨论 Spark Streaming 容 错 体系 之 前 ,我们 先 重 温 一 下 背景 知识 ， 即 DStream 所 依赖 的 RDD 
容错 机 制 : RDD 是 只 读 的 、 可 重复 计算 的 分 布 式 数据 集 ， 它 用 线性 链条 的 形式 记录 了 RDD 从 创 
建 开始 的 中 间 每 一 步 的 计算 过 程 , 错误 恢复 的 过 程 就 是 重新 计算 的 过 程 , 如 果 RDD 某 个 分 区 因为 
任何 原因 数据 丢失 了 , 都 可 以 使 用 记录 起 来 的 计算 过 程 重 新 计算 从 而 恢复 数据 ,只 要 计算 过 程 确 
定 ， 即 便 集群 出 错 也 能 保证 确定 的 计算 结果 。 

Spatk 操 作 的 数据 一 般 存储 在 有 容错 功能 的 文件 系统 ( 比如 HDFS、S3 ) 上 ， 从 这 些 系 统 上 的 
数据 生成 的 RDD 也 具有 容错 能 力 , 但 是 这 个 不 适用 于 Spark Streaming。 因 为 大 部 分 场景 下 ，Spark 
Streaming 的 数据 来 自 网 络 ( 非 网 络 的 filestream 除 外 )， 为 了 达到 相同 的 容错 能 力 ， 通 过 网 络 
接收 到 的 数据 还 被 复制 到 其 他 节点 上 默认 复制 1 份 ， 总 共 2 份 数据 )， 这 就 导致 错误 发 生 时 有 两 
类 数据 需要 恢复 ， 如 下 。 

口 刚 收 到 已 经 被 缓存 ， 但 还 没有 被 复制 到 其 他 节点 的 数据 。 因 为 没有 其 他 副本 ， 恢 复 的 唯 

一 方法 是 从 数据 源 重 新 获取 一 份 。 

口 收 到 了 且 已 经 复制 到 其 他 节点 的 数据 。 这 部 分 数据 可 以 从 其 他 节点 恢复 。 

此 外 ， 我 们 还 要 知道 有 两 类 可 能 发 生 的 错误 ， 如 下 。 

O worker 节 点 失效 。 一 旦 计算 节点 失效 ， 所 有 内 存 中 的 数据 都 会 丢失 且 无 法 恢复 。 

O Driver 节 点 失效 。 如 果 运 行 Driver 进 程 的 节点 失效 ， 那 么 Sparkcontext 也 会 随 之 失效 ， 
整个 Streaming 程 序 会 退出 ， 所 有 附属 的 执行 节点 都 会 退出 ， 内 存 中 的 数据 全 部 丢失 。 

关于 容错 保障 的 效果 定义 ， 一 般 都 是 用 数据 被 计算 的 次 数 来 定义 ， 分 如 下 3 类 。 

口 至 多 一 次 。 每 条 记录 最 多 被 计算 一 次 ,或 者 根本 没有 计算 就 丢失 了 。 

a 到 少 一 次 。 保 证 每 条 记录 都 不 丢失 ， 最 少 计算 一 次 ,但 可 能 会 重复 多 次 计算 。 

口 精准 一 次 。 保 证 每 条 记录 都 不 丢失 ， 并 且 只 计算 一 次 ， 不 多 不 少 ， 显 然 这 是 最 佳 的 容错 
保障 。 

了 解 一 下 通用 的 流 式 计算 过 程 有 助 于 了 解 在 每 个 环节 的 容错 保障 效果 ， 一 般 流 式 计 算 分 为 3 


步 ， 如 图 6-9 所 示 。 
(1) 数据 接收 


图 6-9” 流 式 计算 过 程 
要 想 实现 精准 一 次 的 容错 效果 ， 我 们 需要 确保 每 一 步 都 能 实现 精准 一 次 的 计算 。 
步骤 一 是 数据 接收 ， 容 错 保障 很 大 程序 上 依赖 于 数据 源 ， 下 面 将 详细 讨论 。 


输入 数据 流 


(2) 数据 计算 
(Transformation 操作 ) 


(3) 结果 输出 
(Output 操作 ) 
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步 又 二 是 Transformation 计 算 ， 因 为 有 RDD 容 错 性 的 保证 ， 所 以 可 以 实现 精准 一 次 的 容错 保障 。 
步骤 三 是 结果 输出 ， 默 认 只 提供 “至 少 一 次 ”的 容错 保障 ， 不 能 达到 “精准 一 次 ”的 级 别 ， 
是 因为 还 依赖 输出 操作 的 类 型 和 下 一 级 接收 系统 是 否 支持 事务 特性 ， 也 在 后 面 单独 讨论 。 
2. 数据 接收 容错 
不 同 数据 源 提供 不 同 程序 的 容错 保障 。 
O 对 于 HDFS、S3 等 自 带 容错 功能 的 文件 系统 ， 我 们 可 以 保障 精准 一 次 的 容错 能 力 。 
口 Spark 从 1.3 版 开始 引入 新 的 Kafka Direct API， 也 可 以 保障 精准 一 次 的 容错 能 
O 对 于 其 他 使 用 接收 器 来 接收 数据 的 场景 ， 视 接收 机 制 是 否 可 靠 (有 确认 机 制 ) 以 及 是 否 
开启 WAL 功 能 而 不 同 。 如 果 接 收 可 靠 且 开启 WAL 功 能 ， 可 以 确保 数据 不 丢 ， 并 且 提 供 实 
现 至 少 一 次 级 别 的 容错 保障 。 在 开启 WAL 的 情况 下 ， 即 便 数 据 源 接收 不 可 靠 ， 也 只 会 丢 
失 还 在 缓存 的 数据 并 且 对 其 他 数据 实现 至 少 一 次 级 别 的 容错 保障 ; 其 他 情况 下 容错 能 
都 不 高 ， 特 别 是 Driver 节 点 失效 的 情况 下 基本 丧失 容错 能 力 ， 详 情 参 见 表 6-1。 


表 6-1 数据 源 接收 可 靠 性 级 别 对 照 表 


数据 源 接收 可 靠 性 是 否 开 启 WAL worker 节 点 失效 Driver 节 点 失效 
可 靠 接 收 是 数据 不 丢 数据 不 丢 
至 少 一 次 至 少 一 次 
f 数据 不 丢 已 经 收 到 的 数据 会 丢失 
至 少 一 次 无 法 容错 
不 可 靠 接收 是 缓存 数据 丢失 缓存 数据 丢失 
至 少 一 次 至 少 一 次 
否 缓存 数据 丢失 数据 全 部 丢失 
至 少 一 次 无 法 容错 


3. 结果 输出 容错 

结果 输出 ( saveAsTextFiles、foreachRDD 等 ) 操作 本 身 提供 至 少 一 次 级 别 的 容错 性 能 ， 
就 是 说 可 能 输出 多 次 至 外 部 系统 ， 但 可 能 通过 一 些 辅助 手段 来 实现 精准 一 次 的 容错 效果 。 

当 输 出 为 文件 时 是 可 以 接受 的 ， 因为 重复 的 数据 会 覆盖 前 面 的 数据 ,结果 一 致 ， 效 果 相 当 于 
精确 一 次 , 其 他 场景 下 的 输出 要 想 实 现 精 确 一 次 的 容错 , 需要 一 些 额外 的 操作 , 有 如 下 两 种 方法 。 
OQ 夫 等 更 新 。 确 保 多 操作 的 效果 与 一 次 操作 的 效果 相同 ， 比 如 saveAs***Files 即 便 调用 
多 次 ， 结 果 还 是 同一 个 文件 。 

口 事务 更 新 。 更 新 时 带 上 事务 信息 ， 确 保 更 新 只 进行 一 次 ， 比 如 使 用 批 次 时 间 和 RDD 的 分 
区 编号 构造 一 个 事务 ID ， 在 更 新 时 使 用 事务 ID 来 判断 是 否 已 经 更 新 ， 如 果 已 经 更 新 过 则 
跳 过 ， 避 人 免 重复 ， 实 现 精 准 一 次 的 容错 效果 。 


ha 


Lg 


由 于 流 式 计算 7 x 24 小 时 运行 的 特点 ， 除 了 考虑 具备 容错 能 力 ， 我 们 还 要 考虑 容错 的 代价 问 
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题 。 为 了 避免 错误 恢复 的 代价 与 运行 时 间 成 正比 增长 ，Spark 提 供 了 检查 点 功能 ， 用 户 定期 记录 


中 间 状 态 ， 避 免 从 头 开 始 计算 的 漫长 恢复 。 
有 一 情况 下 必须 启用 检查 点 功能 ， 那 就 是 调用 了 有 状态 的 Transformation 操 


作 ， 比 如 


updateStateByK y 或 r duceByKeyAndWindowo 因为 有 状态 的 操作 是 从 程序 开始 时 一 直 进 行 


的 ， 如 果 不 做 检查 点 ， 那 么 计算 链接 会 随 着 时 间 一 直 增 长 ,重新 计算 的 代价 也 将 会 是 天 文 数字 。 
另外 ， 如 果 期 望 程序 在 因 Driver 节 点 失效 后 的 重启 之 后 可 以 继续 运行 ， 也 建议 开启 检查 点 功 


能 ， 可 以 记录 配置 、 操 作 以 及 未 完成 的 批 次 ， 这 样 重启 后 可 以 继续 运行 。 


当然 ， 不 启用 检查 点 功能 也 是 可 以 的 ， 实 际 上 大 部 分 程序 都 不 需要 ， 这 可 视 需 求 来 选择 。 


开启 检查 点 的 方法 很 简单 ， 调 用 streamingContext.checkpoint (checkpo 
ctory) 即 可 ， 参 数 是 一 个 支持 容错 的 文件 系统 目录 ， 可 以 是 HDFS 或 S3 。 


开启 之 后 ， 前 面 提 到 的 有 状态 的 Transformation 操 作 就 可 以 调用 了 。 
为 了 让 Driver 程 序 自动 重启 时 也 能 使 用 检查 点 功能 , 还 需要 添加 一 些 代 人 码 ,。 参考 下 


intDire- 


面 的 示例 ， 


主要 改动 是 在 启动 后 创建 streamingContext 时 检查 一 下 检查 点 目录 ,如 果 存 在 则 从 这 个 目录 恢 


复 StreamingContext， 否 则 就 创建 新 的 。 示 例 代 码 : 


// 通过 函数 来 创建 StreamingContext 
def functionToCreateContext(): StreamingContext = ( 


val ssc - new StreamingContext(...) // 新 的 context 
ssc.checkpoint (checkpointDirectory) // 设置 检查 点 目录 
val lines = ssc.socketTextStream(...) // 创建 DStream 


// HAREZ 


SSC // 返回 context 
} 


// 从 检查 点 目录 恢复 StreamingContext 或 创建 一 个 新 的 

val ssc = StreamingContext.getOrCreate(checkpointDirectory, 
functionToCreateContext  ) 

ssc.start() 

Ssc.awaitTermination() 


注意 ， 代 码 执行 的 前 提 是 在 程序 发 布 时 配置 了 自动 重启 ， 参 考 前 面 的 介绍 。 


注意 , 检查 点 是 有 代价 的 , 需要 存储 数据 至 存储 系统 ， 增 加 批 次 的 计算 时 间 ， 并 且 降 低 吞 吐 


w, 我 们 可 以 通过 运行 时 的 监控 来 查看 实际 的 额外 负载 。 我 们 还 可 以 通过 增加 周期 的 8 
降低 影响 ， 一 般 建议 时 间 间 隔 至 少 为 10 秒 。 


6.2.3 ”性 能 调 优 


村 间 间 隔 来 


Spark 流 式 计算 程序 要 想 运 行 顺畅 ， 也 需要 一 些 基本 的 调 优 ， 总 结 一 下 主要 在 两 个 方向 上 : 
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OQ 每 个 批 次 的 处 理 时 间 尽 可 能 短 ; 
口 收 到 数据 后 ， 尽 可 能 快 地 处 理 。 

1. 减少 批 处 理 的 时 间 

有 很 多 方法 可 以 用 于 优先 计算 , 减少 处 理 的 时 间 , 这 里 重点 讨论 流 式 计算 这 一 特定 场景 下 最 
重要 的 几 个 方法 。 

一 是 增加 数据 接收 的 并 发 数量 ， 尤 其 是 当 瓶 颈 发 生 在 数据 接收 的 时 候 。 默 认 每 个 Input 
DSttream 都 只 会 创建 一 个 接收 器 ， 运 行 在 某 个 节点 上 ， 我 们 可 以 创建 多 个 Input Dstream， 让 它 
们 接收 不 同 的 数据 分 区 ， 以 实现 并 行 接收 。 比 如 一 个 接收 两 个 topic 的 Kafka Input DStream 可 以 优 
化 成 两 个 Input Dstream， 各 接收 一 个 topic， 然 后 再 合并 ， 示 例如 下 : 


val numStreams = 5 

val kafkaStreams - (1 to numStreams).map ( i -» KafkaUtils.createStream(...) ) 
val unifiedStream - streamingContext.union(kafkaStreams) 

unifiedStream.print() 


二 是 数据 处 理 的 并 发 度 ， 如 果 并 发 度 不 够 ,可 能 导致 集群 的 资源 不 被 充分 利用 。 一 个 最 简单 
的 方法 是 看 各 机 器 CPU 的 所 有 核心 是 不 是 都 在 工作 ,如果 有 空闲 的 ， 则 可 以 考虑 增加 并 发 度 (可 
以 调整 选项 spark.default.parallelism )。 

三 要 数据 序列 化 ,数据 收 到 后 ， 当 需要 与 磁盘 交换 数据 时 ,数据 可 能 会 进行 序列 化 和 反 序 列 
化 ,好 处 是 节省 空间 和 内 存 , 但 会 增加 计算 负载 。 因 此 ， 我们 应 尽 可 能 地 使 用 Kryo 来 完成 这 项 工 
作 ，CPU 和 内 存 开 销 都 相对 少 一 些 。 

最 后 是 要 注意 task 启 动 的 额外 开销 ， 如 果 task 启 动 过 于 频繁 ( 比如 每 秒 50 次 )， 那 么 额外 的 开 
销 可 能 非常 高 ,甚至 无 法 达到 那样 的 实时 计算 要 求 。Standalone 模 式 和 Mesoscoarse-grained 模 式 下 
开销 相对 会 小 一 些 。 

2. 设置 合理 批 次 间隔 时 间 

为 了 让 每 个 批 次 的 数据 能 够 尽快 处 理 ， 批 次 间隔 时 间 的 设置 非常 重要 。 经 验 表 明 , 一 般 来 说 
短 时 间 间 隔 会 导致 更 多 的 额外 开销 ， 以 及 无 法 完成 的 风险 ， 所 以 前 期 可 以 采取 相对 保守 的 方法 ， 
比如 将 间隔 设置 为 5~10 秒 。 然 后 ,我 们 通过 观察 运行 数据 或 者 最 终 的 输出 数据 确保 系统 足够 实时 ， 
每 个 间隔 的 实际 计算 时 间 远 小 于 间隔 时 间 ， 然 后 再 逐渐 按 需 要 缩短 间隔 时 间 。 


6.2.4 5 Storm 的 对 比 


Spatk 一 直 是 后 来 者 ， 在 批 处 理 领 域 出 现在 Hadoop MR 之 后 ,但 凭借 优秀 的 性 能 表现 大 有 超 
越 之 势 。 它 在 流 式 计算 领域 也 是 后 来 者 , 在 Spark Streaming 出 现 之 前 , 业界 已 经 有 了 Storm 并 且 应 
用 广泛 ，Storm 在 2014 年 9 月 从 0.9.1 版 本 开始 正式 成 为 Apache 旗 下 的 顶级 项 目 。 


“他 山 之 石 ， 可 以 攻 玉 。” 这 里 对 两 者 做 一 下 简单 对 比 ， 也 让 读者 对 Spark Streaming 有 更 深入 
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的 认识。 

Storm 是 开源 免费 的 分 布 式 实时 计算 系统 ， 可 以 简单 、 实 时 、 可 靠 地 处 理 海量 的 数据 流 ， 具 
有 高 性 能 、 可 扩展 、 自 动容 错 、 确 保 数据 不 丢失 等 特性 。 它 支持 非常 多 的 语言 ， 可 以 应 用 在 实时 
分 析 、 在 线 实 时 机 器 学 习 、 分 布 式 RPC、ETL 等 众多 领域 ， 其 结构 如 图 6-10 所 示 。 


Tuple Tuple Tuple 
——!Óo n M—"— 


图 6-10 ”Storm 结 构 示意 图 ( 男 见 彩 插图 6-10 ) 


大 体 上 两 者 非常 接近 ,而 且 都 处 于 快速 迭代 过 程 中 ， 即 便 一 时 的 对 比 可 能 某 一 方 占 优势 , 但 
后 者 可 能 很 快 就 追赶 上 来 。 比 如 在 性 能 方面 ，Spark Streaming 刚 发 布 不 入 ， 有 基准 测试 显示 性 能 
超过 Storm 几 十 倍 ， 原 因 是 Spark Streaming 采 用 了 小 批量 模式 ， 而 Storm 是 一 条 消息 一 条 消息 地 计 
算 。 但 后 来 Storm 也 推出 了 称 为 Trident 的 小 批量 计算 模式 ， 性 能 应 该 不 是 差距 了 。 而 且 双 方 都 在 
持续 更 新 ， 底 层 的 一 个 通信 框架 的 更 新 或 者 某 个 路 径 的 代码 优化 都 可 能 让 性 能 有 较 大 的 提升 。 

但 是 两 者 的 基因 不 同 , 更 具体 地 说 就 是 核心 数据 抽象 不 同 。 这 是 无 法 改变 的 , 而 且 也 不 会 轻 
易 改 变 ， 这样 的 基因 也 决定 了 它们 各 自 最 适合 的 应 用 场景 。 前 面 已 经 讲 过 ，Spark Streaming 的 核 
心 抽象 是 DSTream， 里 面 是 RDD， 下层 是 Spark 核 心 DAG 调 度 ， 所 以 Spark Streaming 的 这 一 基因 
决定 了 其 粒度 是 小 批量 的 ， 无 法 做 更 精细 地 控制 。 比 如 ,调度 周 期 1 秒 可 能 已 经 达到 极限 了 ， 更 
小 的 周期 意义 已 经 不 大 。 数 据 的 可 靠 性 也 是 以 批 次 为 粒度 的 , 但 好 处 也 很 明显 ,就 是 有 可 能 实现 
更 大 的 否 叶 量 。 男 外 ， 得 益 于 Spark 平 台 的 良好 整合 性 ， 完 成 相同 任务 的 流 式 计算 程序 与 历史 批 
量 处 理 程序 的 代码 基本 相同 ， 而 且 还 可 以 使 用 平台 上 的 其 他 模块 比如 SQL 、 机 器 学 习 、 图 计算 的 
计算 能 力 ， 在 开发 效率 上 占有 优势 。 而 Storm 的 核心 数据 抽象 是 tuple， 是 命名 的 值 列表 ， 相 当 于 
消息 ， 不 是 分 布 式 的 ， 所 以 Storm 更 擅长 细 粒 度 的 消息 级 别 的 控制 ， 比 如 延 时 可 以 实现 毫秒 级 ， 
数据 可 靠 性 也 是 以 消息 为 粒度 的 。 

核心 数据 抽象 的 不 同 导 致 了 它们 在 计算 模式 上 的 本 质 区 别 。Spark Streaming 在 本 质 上 其 实 是 
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像 MR 一 样 的 批 处 理 计算 ， 但 将 批 处 理 的 周期 从 常规 的 几 十 分 钟 级 别 尽 可 能 缩短 至 秒 级 ， 也 算 达 
到 了 实时 计算 的 延 时 指标 。 而 且 ， 它 支持 各 类 数据 源 ， 基 本 可 以 实现 流 式 计算 的 功能 ,但 延 时 无 
法 进一步 缩短 了 。 但 Storm 的 设计 初衷 就 是 实时 计算 ， 上 毫秒 级 的 计算 当然 不 在 话 下 ， 而 且 后 期 通 
过 更 高 级 别 的 Trident 也 实现 了 小 批 次 处 理 功能 。 


表 6-2 是 两 者 的 详细 对 比 ， 仅 供 参 考 。 


表 6-2 Spark Streaming 与 Storm 对 比 


Spark Streaming Storm 
计算 模型 小 批量 计算 实时 数据 流 计算 
实时 性 秒 级 最 快 10 毫 秒 级 
数据 可 靠 性 精确 只 被 处 理 一 次 核心 支持 最 少 一 次 或 最 多 一 次 ; 
Trident 支 持 全 部 最 少 一 次 、 最 多 一 次 、 精 确 一 次 
性 能 性 能 测试 视 硬件 、 网 络 、 程 序 等 多 方 因素 而 定 ， 无 法 直接 对 比 ， 这 里 只 是 引用 一 些 公开 的 数据 ; 


Spark Streaming: 40 万 记录 / 秒 /节点 
Storm; 100 万 / 秒 /节点 
实现 语言 Scala Clojure 


编程 语言 Scala, Java, Python Trident 只 支持 Clojure、Java、Scala， 核 心 还 支持 
Python、Ruby 等 其 他 语言 


相同 点 分 布 式 、 容 错 、 可 扩展 


6.3 应 用 场景 : 一 个 类 似 百 度 统计 的 流 式 实时 系统 


我 们 知道 网 站 用 户 访 问 流量 是 不 间断 的 ， 基 于 网 站 的 访问 日 志 ， 即 Web log 分 析 是 典型 的 流 
式 实时 计算 应 用 场景 。 比 如 百度 统计 , 它 可 以 做 流量 分 析 、 来 源 分 析 、 网 站 分 析 、 转 化 分 析 。 田 
外 还 有 特定 场景 分 析 ， 比 如 安全 分 析 ， 用 来 识别 CC 攻击 、SQL 注 入 分 析 、 脱 库 等 。 这 里 我 们 简 
单 实现 一 个 类 似 于 百度 分 析 的 系统 。 


6.3.1 Web log 实时 统计 场景 


百度 统计 ( baidu.tongji.com ) 是 百度 推出 的 一 款 免 费 的 专业 网 站 流量 分 析 工 具 ， 能 够 告诉 用 
户 访客 是 如 何 找到 并 浏览 用 户 的 网 站 的 , 以 及 在 网 站 上 浏览 了 哪些 页 面 。 这 些 信息 可 以 帮助 用 户 
改善 访客 在 其 网 站 上 的 使 用 体验 ， 不 断 提 升 网 站 的 投资 回报 率 。 

百度 统计 提供 了 几 十 种 图 形 化 报告 , 包括 : 趋势 分 析 、 来 源 分 析 、 页 面 分 析 、 访 客 分 析 、 定 
制 分 析 等 多 种 统计 分 析 服 务 。 

这 里 我 们 参考 百度 统计 的 功能 ， 基 于 Spark Streaming 简 单 实 现 一 个 分 析 系 统 ， 使 之 包括 以 下 
分 析 功 能 。 
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口 流量 分 析 。 一 段 时 间 内 用 户 网 站 的 流量 变化 趋势 , 针对 不 同 的 IP 对 用 户 网 站 的 流量 进行 细 

分 。 常 见 指标 是 总 PV 和 各 耳 的 PV。 

口 来 源 分 析 。 各 种 搜索 引擎 来 源 给 用 户 网 站 带 来 的 流量 情况 ， 需 要 精确 到 具体 搜索 引擎 、 
具体 关键 词 。 通 过 来 源 分 析 ， 用 户 可 以 及 时 了 解 哪 种 类 型 的 来 源 为 其 带 来 了 更 多 访客 。 
常见 指标 是 搜索 引擎 、 关 键 词 和 终端 类 型 的 PV 。 

口 网 站 分 析 。 各 个 页 面 的 访问 情况 ， 包 括 及 时 了 解 哪些 页 面 最 吸引 访客 以 及 哪些 页 面 最 容 

易 导 致 访客 流失 ， 从 而 帮助 用 户 更 有 针对 性 地 改善 网 站 质量 。 常 见 指标 是 各 页 面 的 PV。 


6.3.2 日 志 实时 采集 


Web log 一 般 在 HTTP 服 务 器 收集 ， 比 如 Nginx access 日 志文 件 。 一 个 典型 的 方案 是 Nginx 日 志 
文件 十 Flume + Kafka + Spark Streaming, Wn Fr: 


(1) 接收 服务 器 用 Nginx， 根 据 负载 可 以 部 署 多 台 ， 数 据 落 地 至 本 地 日 志文 件 ; 

(2) 每 个 Nginx 节 点 上 部 署 Flume， 使 用 tail -f 实 时 读 取 Nginx 日 志 ， 发 送 至 KafKa 集 群 ; 

(3) 专用 的 Kafka 和 集群 用 户 连接 实时 日 志 与 Spark 和 集群 ， 详 细 配 置 可 以 参考 http://spark.apache. 

org/docs/1.4.1/streaming-kafka-integration.html ; 

(4) Spark Streaming 程 序 实时 消费 Kafka 集 群 上 的 数据 ， 实 时 分 析 ， 输 出 ; 

(5) 结果 写 和 MySQL 数据 库 。 

当然 , 还 可 以 进一步 优化 ， 比 如 CGI 程 序 直接 发 日 志 消 息 到 Kafka, 节省 了 写 访问 日 志 的 磁盘 
开销 。 这 里 主要 专注 Spark Streaming 的 应 用 ， 所 以 我 们 不 做 详细 论述 。 


6.3.8. 流 式 分 析 系 统 实 现 


我 们 简单 模拟 一 下 数据 收集 和 发 送 的 环节 ， 用 一 个 Python 脚本 随机 生成 Nginx 访 问 日 志 , 3 
通过 脚本 的 方式 自动 上 传 至 HDFS ， 然 后 移动 至 指定 目录 。Spark Streaming 程 序 监控 HDFS 目 录 ， 
自动 处 理 新 的 文件 。 

生成 Nginx 日 志 的 Python 代码 如 下 ， 保 存 为 文件 sample web log.py。 


#!/usr/bin/env python 
d -*- coding: utf-8 -*- 


import random 
import time 


class WebLogGeneration(object): 


def | init (self): 
t ARTIE, HAKER 4523 36798 709629 IE, AEAX X E, 20902949203 4, XR TRO, 5% 
EAZ 
self.user agent dist = ( 
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def 


def 


def 


0.0:"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)", 

1:"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)", 

0.2:"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET 
CLR 2.0.50727)"; 

0.3:"Mozilla/4.0 (compatible; MSIE6.0; Windows NT 5.0; .NET CLR 
1.1.4322)"; 

0.4:"Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko", 

0.5:"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 
Firefox/41.0", 

0.6:"Mozilla/4.0 (compatible; MSIE6.0; Windows NT 5.0; .NET CLR 
1.1.4322)", 

0.7:"Mozilla/5.0 (iPhone; CPU iPhone OS 7 0,3 like Mac OS X) 
AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11B511 
Safari/9537.523", 

0.8:"Mozilla/5.0 (Linux; Android 4.2.1; Galaxy Nexus Build/JOP40D) 
AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Mobile 
Safari/535.19", 

0.9:"Mozilla/5.0 (Macintosh; Intel Mac OS X 10 10 5) AppleWebKit/537.36 
(KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36", 

quom ce 


e 


} 
self.ip slice list - [10, 29, 30, 46, 55, 63, 72, 87, 
98,;132,156;124,167,143,187,168;190;201,202,214,215,2227] 
self.url, path list = 
["login.php","view.php","list.php","upload.php","admin/login.php","edit. 
php","index.html"] 
self.http refer = [ 
"http://www.baidu.com/s?wd-(queryj]", 
"http://www.google.cn/search?q-(query)", 
"http://www.sogou.com/web?query-(query)", 
"http://www.yahoo.com/s?p-(query)", 
"http://cn.bing.com/search?q-(query)" 
] 


Sself.search keyword = ["spark","hadoop","hive","spark mlib","spark sql"] 


sample ip(self): 

slice = random.sample(self.ip slice list, 4) 4 从 ip_slice_1ist 中 随机 获取 4 个 
# 元 素 ， 作 为 一 个 片断 返回 

return  ".".join([str(item) for item in slice]) 

sample url(self): 

return  random.sample(self.url path list,1)[0] 


sample user. agent (self): 
dist uppon - random.uniform(0, 1) 
return self.user agent dist[float('$0.1f' $ dist uppon)] 


# 主要 搜索 引 掌 Teferrer 参 数 


def 


sample_refer (self): 
if random.uniform(0, 1) > 0.2: # 只 有 20% 流 量 有 refer 
return Ten 


refer str-random.sample(self.http refer,1) 
query. str-random.sample(self.search keyword,1) 
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return refer str[0].format(query-query. str[0]) 


def sample one log(self,count - 3): 

time str = time.strftime("£Y-£m-£d £$H:$M:$S",time.localtime()) 

while count »1: 
query log = "(ip) - - [(10cal timej] \"GET /(url) HTTP/1.1N" 200 0 

\"{refer}\" WV"(user agent)N" V"-N"",format(ip-self.sample ip(), 

local time-time str,url-self.sample url(),refer- 
self.sample refer(),user agent-self.sample user. agent()) 
print query log 
Gount s Count ci 


if name mad a 
web log gene - WebLogGeneration() 


web log gene.sample one log(random.uniform(30000, 50000)) 


这 是 一 条 日 志 的 示例 ， 为 一 行 形式 ， 各 字段 间 用 空格 分 隔 ， 字 符 串 类 型 的 值 用 双 引 号 包围 : 


46.202.124.63 - - [2015-11-26 09:54:27] "GET /view.php HTTP/1.1" 200 0 
"http://www.google.cn/search?q-hadoop" "Mozilla/5.0 (compatible; MSIE 10.0; Windows 
NT 6.2; Trident/6.0)" "-" 


然后 需要 一 个 简单 的 脚本 来 调用 上 面 的 脚本 以 随机 生成 日 志 ， 上 传 至 HDFS ， 然 后 移动 到 目 
bs Hos: 


#!/bin/bash 


# HDFS 命 令 
HDFS-"/usr/local/myhadoop/hadoop-2.6.0/bin/hadoop fs" 


# Streaming 程 序 监听 的 目录 ， 注 意 跟 后 面 Streaming 程 序 的 配置 要 保持 一 致 


streaming_dir=”/spark/streaming” 


# 清空 旧 数 据 


SHDFS -rm "$(streaming dirj"'/tmp/*' > /dev/null 2»&1 
SHDFS -rm "$(streaming dir)"'/*' > /dev/null 2>&1 
# 一 直 运 行 

while [ 1 ]; do 


./sample web log.py > test.log 


# 给 日 志文 件 加 上 时 间 玲 ， 避 免 重 名 


tmplog="access. date +'%s'. .log" 


+ 先 放 在 临时 目录 ， 再 move 至 Streaming 程 序 监 控 的 目录 下 ， 确 保 原 子 性 

# 临时 目录 用 的 是 监控 目录 的 子 目 录 ， 因 为 子 目 录 不 会 被 监控 

SHDFS -put test.log $(streaming dir)/tmp/S$tmplog 

SHDFS -mv S(streaming dir)/tmp/$tmplog $(streaming dirj/ 


echo ""date +"%F $T"^ put $tmplog to HDFS succeed" 
sleep 1 
done 
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Spark Streaming 程 序 代码 如 下 所 示 ， 可 以 在 bin/spark-shell 交 互 式 环境 下 运行 ， 如果 要 以 Spark 
程序 的 方式 运行 ， 按 注释 中 的 说 明 调 整 一 下 StreamingContext 的 生成 方式 即 可 。 启 动 
bin/spark-shell 时 , 为 了 避免 因 DEBUc 日 志 信息 太 多 而 影响 观察 输出 ， 可 以 将 DEBUc 日 志 重 定向 至 
文件 ， 屏 幕 上 只 显示 主要 输出 ， 方 法 是 . /pin/spark-shell 2»spark-shell-debug.log: 


import org.apache.spark.SparkConf 
import org.apache.spark.streaming.(Seconds, StreamingContext] 


// 设计 计算 的 周期 ， 单 位 : 秒 
val batch - 10 


/* 

* 这 是 Din/spark-shell 交 互 式 模式 下 创建 StreamingContext 的 方法 
* 非 交 互 式 请 使 用 下 面 的 方法 来 创建 

aA 

val ssc = new StreamingContext(sc, Seconds (batch) ) 


/* 

// 非 交 互 式 下 创建 StreamingContext 的 方法 

val conf = new SparkConf().setAppName("NginxAnay") 
val ssc = new StreamingContext(conf, Seconds (batch)) 
* 


/ * 
* 创建 输入 DStream， 是 文本 文件 目录 类 型 
* 本 地 模式 下 也 可 以 使 用 本 地 文件 系统 的 目录 ， 比 如 file:///home/spark/streaming 
*/ 

val lines = ssc.textFileStream("hdfs:///spark/streaming") 


/* 
* 下 面 是 统计 各 项 指标 ， 调 试 时 可 以 只 进行 部 分 统计 ， 方 便 观察 结果 
*y 


lines.count().print() 


74 32: 各 IP 的 PV， 按 PV 倒 序 
// 空格 分 陪 的 第 一 个 字段 就 是 IP 
lines.map(line => {(line.split(" ")(0), 1))).reduceByKey( + _).transform(rdd => ( 
rdd.map(ip pv => (ip pv. 2, ip pv.. 1) 
sortByKey(false). 
map(ip pv => (ip pv. 2, ip pv.. 1)) 
)).print() 


// 3. 搜索 引 掌 PV 


val refer = lines.map(_.split("\"") (3)) 
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// 先 输出 搜索 引擎 和 查询 关键 词 ， 避 免 统 计 搜 索 关 键 词 时 重复 计算 
// 输出 (host, query. keys) 
val searchEnginInfo = refer.map(r => ( 


val f - r.split('/"'") 


val searchEngines - Map( 
"www.google.cn" -» "q", 
"www.yahoo.com" -> "p" 
"cn.bing.com" -> "q", 
"www.baidu.com" -> "wd", 
"www.sogou.com" -> "query" 


if (f.length » 2) { 
val host - f(2) 


if (searchEngines.contains(host)) ( 
val query = r.split('?')(1) 
if (query.length > 0) ( 
val arr, search q - 


query.split('&').filter( .indexOf(searchEngines (host)-«"-") == 0) 
if (arr. search qg.length > 0) 
(host, arr search q(0).split('-')(1)) 
else 
(host, et) 
) else ( 
(host, mt 
j 
) else 
pra mt) 
) else 
(mS umm) 
}) 
// 输出 搜索 引 掌 PV 
searchEnginInfo.filter( . 1.length > 0).map(p => ((p. 1, 1))).reduceByKey( + 
_) .print() 
// 4. 关键 词 PV 
searchEnginInfo.filter( . 2.length > 0).map(p => ((p. 2, 1))).reduceByKey(  - 
Lloprinti() 
// 5. 终端 类 型 PV 
lines.map(_.split("\"")(5)) .map(agent => ( 
val types = Seq("iPhone", "Android") 
var r - "Default" 
for (t «- types) ( 
if (agent.indexOf(t) !- -1) 


É olÉU 
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)).reduceByKey( + _).print() 


// 6. 各 页 面 PV 
lines.map(line => {(line.split("\"")(1).split(" ")(1), 1))).reduceByKey( | + 
—).print() 


// 启动 计算 ,等 待 执行 结束 (出 错 或 Ctrl-C 退 出 ) 
SSC.Statt () 
Ssc.awaitTermination() 


打开 两 个 终端 ， 一 个 调用 上 面 的 bash 脚 本 模拟 提交 日 志 ， 一 个 在 交互 式 环境 下 运行 上 面 的 
Streaming 程 序 。 你 可 以 看 到 各 项 指标 的 输出 ， 比 如 某 个 批 次 下 的 输出 为 (依次 对 应 上 面 的 6 个 计 
算 项 ): 


Time: 1448533850000 ms 


Time: 1448533850000 ms 


Time: 1448533850000 ms 
cn.bing.com,1745) 
www.baidu.com,1773) 
www.google.cn,1793) 
www.Sogou.com,1845) 


4， 关 键 词 PV 


Time: 1448533850000 ms 


(spark,1426) 
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(hadoop,1455) 
(spark sq1,1429) 
(spark mlib,1426) 
(hive,1420) 


Time: 1448533850000 ms 
(Android,4281) 
(Default,35745) 
(iPhone,4348) 


6. 各 页 面 PV 


Time: 1448533850000 ms 
/edit.php,6435) 
/admin/login.php,6271) 
/login.php,6320) 
/upload.php,6278) 
/list.php,6411) 
/index.html,6309) 
/view.php, 6350) 


查看 数据 更 直观 的 做 法 是 用 图 形 来 展示 ， 常 见 做 法 是 将 结果 写 和 人 外 部 DB ， 然 后 通过 一 些 图 
形 化 报表 展示 系统 展示 出 来 。 比 如 对 于 终端 类 型 ， 我 们 可 以 用 饼 图 展示 ， 如 图 6-11 所 示 。 
Q9 Android 


Q iPhone 
e 其 他 


图 6-11 终端 类 型 分 布 图 示例 ( 男 见 彩 插图 6-11 ) 
对 于 连续 的 数据 ， 我 们 也 可 以 用 拆 线 图 来 展示 趋势 。 比 如 某 页 面 的 PV， 如 图 6-12 所 示 。 


除了 常规 的 每 个 固定 周期 进行 一 次 统计 , 我 们 还 可 以 对 连续 多 个 周期 的 数据 进行 统计 。 以 统 
计 总 PV 为 例 ， 上 面 的 示例 是 每 10 秒 统计 一 次 ， 可 能 还 需要 每 分 钟 统 计 一 次 ,相当 于 6 个 10 秒 的 周 
期 。 我 们 可 以 利用 窗口 方法 实现 ， 不 同 的 代码 如 下 : 
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// 窗口 方法 必须 配置 checkpint， 可 以 这 样 配置 : 
ssc.checkpoint ("hdfs:///spark/checkpoint") 


// 这 是 常规 每 10 秒 一 个 周期 的 PV 统计 
lines.count().print() 


// 这 是 每 分 钟 (连续 多 个 周期 ) 一 次 的 PV 统计 
lines.countByWindow(Seconds (batch*6), Seconds (batch*6)).print() 


首页 PV 与 时 间 
16000 一 一 首页 PV 
12000 
8000 
4000 
0 
1 2 3 4 5 


时 间 
图 6-12 ”首页 PV 趋势 图 示例 ( 男 见 彩 插图 6-12 ) 
使 用 相同 的 办 法 运行 程序 之 后 ， 我 们 首先 会 看 到 连续 6 次 10 秒 周期 的 PV 统计 输出 : 
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Time: 1448535140000 ms 


在 这 之 后 ， 有 一 个 1 分 钟 周期 的 PV 统计 输出 ， 它 的 值 刚 好 是 上 面 6 次 计算 结果 的 总 和 : 


Time: 1448535140000 ms 


Spark 图 计算 


作为 一 个 通用 的 计算 框架 ，Spark 有 很 多 应 用 场景 ， 我 们 选 一 个 比较 有 意思 的 来 做 一 次 实战 
演练 。 “大 数据 ”概念 越 来 越 火爆 ， 随 之 SNA (Social PON Analysis, 社交 网 络 分 析 ) 也 成 为 
了 一 项 热门 研究 。Spark 在 这 方面 做 了 充分 的 准备 ， 自 身 集成 了 一 套 成 熟 的 计算 库 GraphX， 来 解 
决 类 似 的 计算 问题 。 下 面 , 我们 就 使 用 Spark + GraphX ( 其 标志 参见 图 7-1 ) 做 一 次 社交 网 络 分 析 。 


XEsiGraphr 


图 7-1 ”GraphX 的 标志 (来 源 于 Spark 官 网 ) 


7.1 什么 是 图 计算 


图 计算 ,可 以 简单 理解 为 以 图 这 种 数据 结构 为 基础 ,基于 其 实现 的 相关 算法 及 应 用 。 社 交 网 
络 中 人 与 人 之 间 的 关系 ， 如 果 用 计算 机 数据 结构 表示 ， 最 合适 的 就 是 图 了 。 其 中 ， 图 的 “顶点 ” 
表示 社交 中 的 人 ,“ 边 ” 则 表示 人 和 人 的 关系 。 所 以 要 做 社交 网 络 分 析 ， 我 们 先 要 了 解 图 计算 ， 
这 是 整个 分 析 的 基础 。 也 正 因此 ，Spark 的 图 计算 库 叫 作 GraphX。 


7.1.1 图 的 基本 概念 


图 是 基础 的 数据 结构 。 和 链表 、 树 不 同 ， 它 是 一 种 非 线性 数据 结构 。 其 基本 结构 很 简单 ， 如 
图 7-2 所 示 。 


150 第 7 章 Spark 图 计算 


顶点 数组 : 
"E 


V5 Và V4 


oo o0 oo 


oz 
S 


»|9 0 3 æ o 


IE 

边 数组 : Ý 2 o 0 5 o 
vw&[o o o 0 1 
vw|o o o oo 0 


图 7-2 图 的 表示 方法 
一 个 图 由 项 点 集 V 和 顶点 间 的 关系 集合 E ( 边 的 集合 ) 组 成 , 可 以 用 二 元 组 定义 为 : G=(V,E)。 
图 中 各 数据 元 素 之 间 的 关系 可 以 是 任意 的 ， 且 它 描述 的 是 “多 对 多 ”的 关系 。 
例如 ， 图 7-2 中 顶点 的 集合 就 表示 为 : 
V(G)- (vo, vi, v, V3, va] 


边 的 集合 则 表示 为 : 
E(G)- (vo, v4), (vs, va), (va, v3), (vo, yo v2), (Vi, v9) 

这 是 一 个 有 向 图 。 边 有 方向 ，(vi, vv, v1) 表示 不 同 的 两 条 边 。 若 边 无 方向 ， 则 是 无 向 图 。 

基于 图 的 数据 结构 衍生 出 了 很 多 基础 算法 ， 如 遍历、 最 小 生成 树 、 最 短路 径 等 。 比 如 ， 教 科 
书 中 著名 的 Prim 算 法 和 Kruskal 算 法 ， 就 是 计算 最 小 生成 树 。 

业界 也 有 很 多 开源 的 图 计算 库 ， 常 见 的 如 Python 的 NetworkX、Spark 的 GraphX 等 。 这 些 库 基 
本 都 提供 3 类 API 接 口 ， 如 下 。 
OQ 图 生成 。 将 文本 、 日 志 等 数据 转换 为 图 的 数据 结构 。 
a 访问 图 数据 。 查 询 定 点 数 、 边 数 ; 计算 某 个 定点 的 出 度 和 入 度 等 。 
a 图 算法 。 遍 历 图 节点 和 边 、 计 算 图 的 连通 性 、 计 算 最 大 子 图 、 图 的 合并 等 基本 算法 。 


7.1.2 图 计算 的 应 用 

基于 图 的 结构 有 很 多 应 用 场景 ， 比 如 淘宝 的 推荐 商品 、 腾 讯 的 推荐 好 友 , 再 比如 一 些 网 络 路 
由 算法 、SNA、Language Modeling 等 也 都 会 用 到 图 计算 。 

图 的 计算 量 一 般 都 比较 大 ,而 且 通 常会 有 多 次 迭代 。 比 如 ， 若 简单 地 计算 顶点 出 入 度 ， 时间 
复杂 度 就 是 O(n x m)。 像 BAT 这 种 公司 上 亿 的 数据 量 级 ， 基 本 是 不 可 完成 的 任务 。 如 果 能 将 算法 
并 行 化 ， 利 用 机 器 数量 弥补 速度 ， 这 将 会 是 件 美好 的 事情 。 
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7.2 Spark GraphX 简介 


为 了 提高 图 计算 的 速度 ， 很 多 企业 、 社 区 都 提供 了 并 行 的 图 计算 解决 方案 ， 常 见 的 有 Pregel、 
Power Graph 、Graphlib 等 。 当 然 ，Spark 的 GraphX 是 其 中 的 新 秀和 佼佼 者 。 它 依托 Spark 的 强大 计算 
能 力 ， 提 供 了 图 计算 需要 的 便捷 API， 同 时 兼 具 并 行 计算 的 性 能 ， 是 做 大 规模 图 计算 的 一 把 利器 。 


7.2.1 GraphX 实现 


众所周知 ，Spark 抽 象 了 一 个 通用 的 数据 结构 RDD (Resilient Distributed Dataset， 弹 性 分 布 式 
数据 集 ) 来 代表 运算 中 需要 的 各 种 数据 类 型 。GraphX 的 核心 数据 结构 则 是 Graph， 这 是 一 种 携带 
了 每 个 点 和 边 的 属性 的 有 向 多 重 图 (directed multigraph )。 所 谓 “ 多 重 图 ”， 就 是 一 对 源 、 目 的 节 
点 之 间 允 许 存 在 多 条 边 ， 以 便 表示 不 同 的 关系 ( 如 既是 同学 ， 又 是 同事 )。 下 面 是 Graph 的 定义 : 

class Graph[VD, ED] { 


val vertices: VertexRDD[VD] 
val edges: EdgeRDD[ED] 


} 

Graph 的 数据 结构 比较 简单 ， 由 VertexRDD [VD] 和 EdgeRDD[ED] 组 成 ，VD 和 ED 分 别 表示 顶 
点 和 边 的 抽象 数据 结构 ， 实 际 等 价 于 RDD[ (VertexID，VD)] 和 RDD[Edge[ED]] 这 两 种 RDD 
( Resilient Distributed Dataset， 弹 性 分 布 式 数据 集 ; RDD 是 Scala 语 言 的 核心 数据 结构 ， 详 情 可 参考 
Scala 相 关 图 书 )。 

GraphX 内 部 是 如 何 存储 一 个 图 的 ? 它 借鉴 了 PowerGraph, 使 用 了 Vertex-Cut ( 点 分 割 ) 方式 ， 
即将 图 的 顶点 集合 划分 到 不 同 的 计算 节点 上 ， 这 样 可 以 减少 分 布 式 计算 时 的 通信 和 存储 消耗 。 

一 个 图 的 点 分 割 存储 方式 ， 如 图 7-3 所 示 。 


Vertex Table Edge Table 
(RDD) 


Property Graph 


\ 2D Vertex Cut Heuristic 


Part.2 


e 


图 7-3 ”图 的 点 分 割 存储 方式 〈 来 源 于 Spazk 官 网 ) 
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GraphX 内 部 维护 了 3 个 RDD 来 存储 一 个 图 : 一 个 是 顶点 表 (Vertex Table )， 存 储 顶 点 信息 ; 
一 个 是 边 表 (Edge Table), 存储 边 信 息 ; 一 个 是 路 由 表 (Routing Table )， 用 来 查询 顶点 存储 在 哪 
个 计算 节点 上 。 按 Vertex-Cut 方 式 ， 顶 点 信息 仅 会 存 一 份 , 4、B、C 顶 点 存储 在 节点 1 (Part1) E, 
D、E、F 存 储 在 节点 2( Part2 ) 上 。 当 需要 把 边 和 顶点 做 关联 计算 时 ， 比 如 计算 出 入 度 ， 则 按 如 
下 方式 计算 : 


(1) 遍历 Edge Table， 获 取 每 条 边 的 顶点 ID ; 

(2) 根据 顶点 ID 查询 Routing Table， 找 到 该 顶点 的 存储 节点 ; 
(3) 将 边 信息 广播 到 顶点 所 属 的 存储 节点 上 ， 做 并 行 计算 ; 
(4) 输出 每 个 顶点 的 计算 结果 。 


7.2.2 GraphX 常用 API 介绍 
GraphX 的 API 分 为 几 类 : 数据 查询 、 数 据 转换 、 结 构 转 换 、 关 联 聚 合 、 缓 存 操 作 等 。 基 本 上 
图 的 操作 ， 只 需要 一 个 函数 调用 即 可 完成 ， 大 大 精简 了 图 计算 的 程序 设计 。 这 样 一 来 ,我 们 可 以 
聚焦 在 算法 逻辑 实现 上 ， 而 不 用 太 关 心 数据 结构 本 身 。 
在 图 计算 中 最 常用 的 API 有 3 类 : 数据 查询 类 、 关 联 类 和 聚合 类 。 下 面 我 们 简单 介绍 下 这 3 类 
操作 ， 分 别 如 表 7-1、 表 7-2 和 表 7-3 所 示 。 
表 7-1 数据 查询 类 操作 


数据 查询 类 操作 说 明 
val numEdges: Long 获取 边 数 
val numVertices: Long 获取 节点 数 
val inDegrees: VertexRDD[Int] 获取 入 度 
val outDegrees: VertexRDD[Int] 获取 出 度 
val degrees: VertexRDD[Int] 获取 总 度数 
数据 查询 类 API 主 要 用 来 获取 图 的 基础 信息 ， 比 较 简单 。 
表 7-2 关联 类 操作 
关联 类 操作 说 M 
def joinVertices[U] (table: RDD[(VertexID, U)]) (mapFunc: 将 一 个 RDD 和 图 的 节点 集合 进行 join 运 
(VertexID, VD, U) -» VD): Graph[VD, ED] 算 。 即 在 RDD 包 含 的 节点 上 , 调用 map 函 数 
分 布 式 计算 ,返回 一 个 新 图 
def outerJoinVertices[U, VD2] (other: RDD[(VertexID, U)]) 这 个 函数 会 更 通用 。 和 joinVertices 运 算 
(mapFunc: (VertexID, VD, Option[U]) => VD2) 方式 类 似 ， 但 map 国 数 会 在 所 有 的 vertex 节 
:Graph[VD2, ED] 点 上 执行 。 我 们 可 以 用 这 个 做 一 些 图 节点 


的 初始 化 操作 


关联 类 API 是 将 一 个 图 和 一 个 RDD 通 过 节点 ID (vertexip) 关联 ,来 使 图 获得 RDD 中 的 


El 


信息 o 
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表 7-3 聚合 类 操作 
聚合 类 操作 说 ĦA 
def aggregateMessages[Msg: ClassTag]( 分 布 式 遍历 每 条 边 , 执行 自 定义 的 sendMsg 计 算 ; 然后 
sendMsg: EdgeContext[VD, ED, Msg] => Unit, 在 边 所 属 的 节点 上 ， 执 行 自 定义 的 mergeMsg 计 算 


mergeMsg: (Msg, Msg) -»Msg, 
tripletFields: 

TripletFields - TripletFields.All) 
: VertexRDD[A 


聚合 类 API 的 作用 不 太 容 易 理解 。 它 的 一 个 典型 应 用 场景 就 是 计算 每 个 节点 的 出 度 和 入 度 : 


sendMsg 会 把 边 Edgecontext 的 权 值 信息 Msg 分 别 发 送 到 该 有 向 边 的 源 节点 和 目的 节点 ， 
mergeMsg 累 加 即 可 得 到 各 节点 的 出 度 入 度 。 来 看 以 下 代码 : 


// 计算 每 个 目的 节点 的 入 度 ， 作 为 权 值 ( 原 算 法 是 把 出 入 度 都 相 加 ) 

// (Long，Long) 表 示 这 个 节点 的 (入 度 ， 出 度 ) 

val nodeWeightMapFuncEx = (ctx:EdgeContext[VD, Long, (Long,Long)]) => { 
ctx.sendToDst((ctx.attr,0L)) 
ctx.sendToSrc((O0L,ctx.attr)) 

} 

// 对 一 个 节点 的 边 信 息 做 聚合 。 入 度 相 加 ， 出 度 相 加 


val nodeWeightReduceFuncEx = (el: (Long, Long),e2:(Long,Long)) => (el._1+e2._1, 


el. 2«e2. 2) 


val nodeWeights - graph.aggregateMessages (nodeWeightMapFuncEx, 
nodeWeightReduceFuncEx) 


iXFÉnodeweights: VertexRDD[(Long，Long)] 就 包含 了 每 个 节点 的 人 度 、 出 度 值 。 是 


不 是 很 方便 ? 
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了 解 了 图 计算 和 GraphX， 下 面 我 们 正式 进入 社交 网 络 分 析 的 实战 。 这 里 的 例子 使 用 大 家 很 


熟悉 的 新 浪 微 博 数据 ， 来 阐释 社交 网 络 分 析 的 原理 ， 并 使 用 GraphX 实 现 分 析 算 法 。 


7.3.1 社交 网 络 分 析 的 主要 应 用 


在 分 析 复 杂 的 社会 、 技 术 以 及 信息 系统 时 , 我 们 常 把 这 些 系统 描述 成 网 络 的 形式 。 在 这 样 的 


关系 网 络 中 ,节点 代表 一 个 成 员 ， 而 边 就 代表 成 员 之 间 的 关系 。 在 现实 生活 中 ,一 个 人 可 生 
于 不 同 的 团体 ， 比 如 其 工作 的 部 门 、 生 活 的 小 区 、 同 学 圈子 、 亲 威 圈子 、 同 事 圈子 等 。 如 明 


从属 
能 把 


这 些 不 同 的 圈子 自动 分 析出 来 ， 大 到 与 情 监 控 ， 小 到 推荐 好 友 以 扩展 新 用 户 、 精 准 广告 投放 等 ， 
这 些 场 景 都 能 通过 社交 网 络 分 析 来 提升 效果 。 结 合 目前 日 益 火 爆 的 “大 数据 "， 这 就 是 应 用 大 数 


据 来 解决 实际 问题 的 一 个 很 好 的 例子 。 
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所 谓 “ 圈 子 ”， 就 是 把 人 归属 到 不 同 的 群体 中 。 落 实 到 算法 上 ， 划 分 圈子 就 是 根据 网 络 的 属 
性 特征 把 关系 网 络 中 各 个 的 节点 划分 到 各 个 具有 不 同 含义 的 集合 中 。 不 同 的 圈子 内 部 节点 之 间 的 
连接 很 紧密 ， 而 圈子 之 间 的 连接 相对 比较 松散 。 

通过 将 社会 生活 中 的 关系 网 络 抽象 成 计算 机 能 够 表示 的 图 ， 之 后 运用 社区 发 现 算法 ， 根据 
图 的 某 种 特性 将 图 划分 成 一 个 个 子 图 〈 即 社区 )， 这 就 达到 了 自动 识别 不 同 圈子 的 目的 。 


7.89.2 社区 发 现 算法 简介 


区 发 现 的 算法 多 种 思路 , 比较 常见 的 有 两 种 : 一 种 是 分 离 的 思路 , 就 是 找 出 社区 之 间 的 边 ， 
把 这 些 边 从 图 中 移 除 ; 一 种 是 聚合 思路 , 将 联系 紧密 的 节点 聚合 为 一 个 社区 , 并 通过 优化 某 个 相 
关 变 量 的 函数 来 实现 聚合 。 

前 人 已 在 这 两 个 思路 上 有 了 大 量 的 研究 , 而 根据 这 两 类 算法 的 结果 看 ,聚合 的 思路 比分 离 思 
路 好 ,是 算 法 的 效率 也 较 高 。 因 此 ， 聚合 算法 吸引 很 多 学 者 做 了 大 量 相 关 研 究 ， 逐步 形成 了 现在 
的 社区 发 现 算法 。 比 如 ， 密 软 根 大 学 的 M. E. J. Newman 和 康 奈 尔 大 学 的 M. Girvan， 他 们 在 2003 
年 提出 了 一 个 基于 模块 属性 的 测量 方法 。 他 们 在 算法 中 引入 了 一 个 变量 ( 该 变量 称 作 模 块 度 )， 
用 于 衡量 社区 划分 结果 的 合理 性 。 其 原理 是 用 某 种 划分 结果 的 模块 内 聚 性 与 随机 划分 结果 的 内 聚 
性 的 差 值 ， 对 划分 结果 进行 评估 ， 找 到 模块 内 聚 性 最 优 的 划分 。 虽 然 寻 找 最 优 解 往往 非常 困难 ， 
但 这 个 思路 给 大 家 指引 了 优化 方向 。 模块 度 的 思路 对 后 来 的 社区 发 现 算法 有 很 重要 的 影响 , 很 多 
有 影响 的 算法 都 是 基于 该 特性 进行 算法 设计 的 。 

2008 年 ， 以 比利时 和 鲁 汶 大 学 的 Vincent D. Blondel 为 主 的 几 位 学 者 ， 提 出 了 基于 模块 度 的 一 个 
快速 算法 一 一 Louvain 算 法 (也 就 是 Blondel 所 在 大 学 的 名 字 ), 该 算法 可 以 快速 处 理 具有 数 以 亿 计 
节点 的 网 络 ， 用 模块 度 对 社区 划分 的 质量 进行 衡量 ， 其 值 位 于 -1 到 1 之 间 。 模 块 度 的 值 越 大 ， 说 
明 社 区 划分 的 质量 越 高 。 
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0, 其 他 情况 
其 中 ，4y 是 节点 i 和 节点 j 之 前 边 的 权重 ， 如 果 图 里 的 边 都 没有 权重 ,就 可 以 看 作 1。 k, 2A, d 


示 所 有 与 节点 ;相连 的 边 权重 之 和 ， 即 节点 ;的 度数 。c 表 示 节 点 ;所 属 的 社区 ; mo 37 4, 表示 所 


有 边 的 权重 之 和 ， 也 就 是 边 的 数目 。 
KK, 


2m 


公式 中 的 核心 部 分 : A- 应 该 如 何 理解 呢 ? 元 代表 任 一 节点 与 节点 /相连 的 概率 。 现 
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KK. KK. 
在 节点 的 度数 是 K， 所 以 随机 情况 下 ， 节 点 ;与 节点 /相连 的 度数 就 是 i o Áj »s 值 越 大 ， 
代表 当前 社区 划分 与 随机 情况 下 差距 越 大 ， 划 分 的 效果 就 越 好 。 这 里 的 O， 就 是 模块 度 了 。 
如 果 用 GraphX 实 现 Louvain 算 法 ， 重 点 就 在 算法 实现 上 ， 数 据 结 构 非 常 简单 。 
Louvain 算 法 中 的 主要 数据 结构 VertexState 代 码 如 下 : 


class VertexState extends Serializable(t 


var community - -1L // 所 属 社区 ID 
var communitySigmaTot = OL // 社区 的 度数 
var internalWeight = OL // 节点 总 度数 
var nodeWeight = OL; // 节点 的 出 度 


var changed = false 


override def toString(): String - ( 
"(community:"-«community-",communitySigmaTot:"-communitySigmaTot- 
",internalWeight:"«internalWeight-",nodeWeight:"-«nodeWeight-«")" 
} 
} 


程序 的 流程 也 很 简单 ， 如 下 。 
(1) 将 图 中 的 每 个 节点 看 成 一 个 独立 的 社区 ， 此 时 社区 的 数目 与 节点 个 数 相同 ; 


(2) 对 每 个 节点 i， 依 次 尝试 将 其 分 配 到 每 个 邻居 节点 所 在 的 社区 ， 计 算 分 配 前 与 分 配 后 的 模 
块 度 变化 A5， 并 记录 A6 最 大 的 那个 邻居 节点 ， 如 果 max Aó > 0， 则 把 节点 分 配给 A6 最 大 


的 那个 邻居 节点 所 在 的 社区 ， 和 否则 保持 不 变 ; 
(3) 重复 步骤 (2)， 直 到 所 有 闻 点 的 所 属 社区 不 再 变化 ; 
(4) 对 图 进行 压缩 ， 将 所 有 在 同一 个 社区 的 节点 压缩 成 一 个 新 节点 ， 社 区 内 节点 之 间 的 边 的 
权重 转化 为 新 节点 的 环 的 权重 ， 社 区 间 的 边 权重 转化 为 新 节点 间 的 边 权 重 (这 一 步 主要 
为 减少 后 续 计算 量 ); 
(5) 重复 步骤 (1)， 直 到 整个 图 的 模块 度 不 再 发 生变 化 。 
每 轮 迭 代 都 会 把 节点 按 社 区 压缩 ， 这 就 减少 了 边 和 节点 的 数目 。 计 算 节点 卉 其 邻居 节点 / 模 
块 度 的 变化 ， 只 与 节点 六 j 的 社区 有 关 ， 与 其 他 社区 无 关 ， 这 样 一 来 就 加 快 了 计算 的 速度 。 那 么 
如 何 判断 一 个 节点 十 否 属于 社区 c 呢 ? 


A = > +K, in = 二 | 区 m E | 
2m 2m 2m 2m 2m 
Jub E, GCRAEEODMULEOR UN, L, ERIA SHK ART SOR YE DULCE 27. 


A6 的 计算 分 两 部 分 , 前 一 个 中 括号 代表 把 节点 ;加 入 社区 c 的 模块 度 , Je — di mo n TE 
一 个 独立 社区 的 模块 度 ，A6 最 大 的 那个 社区 就 是 方 点 ;所属 的 新 社区 。 
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大 家 可 以 看 到 ，A6 公 式 中 模块 度 的 计算 和 前 面 的 6 公式 不 同 ， 这 里 存在 一 个 推导 关系 。 实 际 


上 6 公式 经 过 展开 计算 ,就 可 以 得 到 A5 中 括号 里 的 表达 式 了 。 即 : 


e xm- 


这 就 和 A5 公 式 一 致 了 。 


7.3.8 用 GraphX 实现 Louvain 算法 


了 解 了 Louvain 算 法 的 原理 ， 如 何 用 GraphX 来 实现 呢 ?” 因 为 GraphX 内 置 了 很 多 集合 运算 的 操 
fg, 实现 代码 十 分 精简 。 这 样 一 来 ， 我们 可 以 聚焦 在 算法 实现 上 , 而 不 用 太 考 虑 基础 数据 结构 和 


基础 操作 的 开发 。 


我 们 把 项 目 起 名 为 louvainTest( 源 代码 可 以 在 这 里 下 载 : https://github.com/Sotera/spark- 


distributed-louvain-modularity )， 它 主要 包含 以 下 模块 ， 如 图 7-4 所 示 。 

口 LouvainCore.scala。 算 法 的 核心 代码 都 在 这 里 了 。 

口 VertexState.scala。 节 点 状态 类 ， 是 Louvain 算 法 的 主要 数据 结构 。 
口 Main.scala。 主 函数 和 一 些 参数 配置 项 。 

口 HDFSLouvainRunner.scala。 将 临时 结果 写 和 人 HDFS 的 辅助 类 。 

口 LouvainHarness.scala。HDFSLouvainRunner 的 父 类 。 


Y > louvainTest 

Y (zB src 

» HDFSLouvainRunner.scala 

IpAddress.scala 
LouvainCore.scala 
LouvainHarness.scala 
Main.scala 
VertexState.scala 
test.scala.com.soteradefense.d 


un) [ux [u [un) [un) [un 


» 
> 
> 
> 
> 
d 


图 7-4 louvainTest 项 目 代 码 结构 


前 两 个 文件 就 是 核心 了 。 下 面 ， 我 们 逐步 分 析 用 GraphX 实 现 Louvain 算 法 的 主要 代码 。 
main 了 图 数 主要 代码 如 下 : 


/** 
* 读 取 数 据 文 件 ， 每 行 格式 : idi id2， 表 示 id1 和 iad2 的 关系 好 
* 这 里 我 们 使 用 无 向 图 
it 
var edgeRDD = sc.textFile(edgeFile).map(row-» ( 
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val tokens = row.split(edgedelimiter).map( .trim()) 
tokens.length match ( 

case 2 => (new Edge(inputHashFunc (tokens(0)),inputHashFunc(tokens(1)),1L) ) 

case 3 => (new 
Edge(inputHashFunc(tokens(0)),inputHashFunc (tokens (1)), 
tokens (2) .toLong)} 

//case | => (throw new IllegalArgumentException("invalid input line: "+row)} 

case _ => ( new Edge(0, 0, 1L)} 


)) 


println(s"total rows: "-«edgeRDD.count()) 


// 根据 配置 项 决定 是 否 要 把 当前 的 RDD 分 片 ， 并 行 处 理 
// 默认 会 根据 HDFS 存 储 的 block 数 作为 分 片 数 
if (parallelism != -1 ) edgeRDD = edgeRDD.coalesce(parallelism,shuffle-true) 


// 将 RDD 转 换 为 图 
val graph = Graph.fromEdges(edgeRDD, None) 


// 这 里 使 用 HDFSLouvainRunner 类 运行 核心 算法 并 输出 

// 如 果 不 使 用 HDFS 输 出 ， 可 以 通过 继承 LouvainHarness 类 实现 

val runner = new HDFSLouvainRunner (minProgress,progressCounter,hdfspath,outputdir) 
runner.run(sc, graph) 


main 的 主要 流程 比较 简单 ， 从 数据 文件 读 取 生成 RDD 后 ， 转 换 为 GraphX 的 Graph 结构 ， 再 
调用 辅助 类 执行 计算 即 可 。 其 中 ，run 函 数 就 是 计算 模块 度 的 主 循环 。 下 面 我 们 看 下 *un 函 数 的 
实现 : 


def run[VD: ClassTag] (sc:SparkContext,graph:Graph[VD,Long]) = ( 
var louvainGraph = LouvainCore.createLouvainGraph (graph) 


var level = -1  // 统计 图 按 社区 压缩 的 次 数 
var q = -1.0 // 当前 模块 度 的 值 
var halt = false 
do { 
level += 1 
println(s"MnStarting Louvain level $level") 


// 调用 Louvain 算 法 计算 每 个 节点 所 属 的 当前 最 佳 社区 

val (currentQ,currentGraph,passes) = LouvainCore.louvain(sc, 
louvainGraph,minProgress,progressCounter) 

louvainGraph.unpersistVertices (blocking-false) 

louvainGraph-currentGraph 


saveLevel(sc,level,currentQ,louvainGraph) 


// 如 果 模 块 度 增加 量 超过 0.001， 说 明 当 前 划分 比 前 一 次 好 ， 继 续 选 代 
// 如 果 计 算 当 前 社区 的 选 代 次 数 少 于 3 次 ， 就 停止 循环 
//println(s"if ($passes > 2 && $currentQ > $q + 0.001 )") 
if (passes > 2 && currentQ > q + 0.001 )( 
q - currentQ 
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louvainGraph = LouvainCore.compressGraph(louvainGraph) 
) else ( 

halt - true 
j 


) while ( !halt ) 


finalSave(sc,level,q,louvainGraph) 


} 


xun 函数 主要 分 3 部 分 ， 如 下 。 
(]) 创建 包含 vertexState 节 点 数据 结构 的 Graph， 通 过 LouvainCore.createLouvain- 
Graph 实 现 ， 这 样 才能 继续 下 面 的 模块 度 计算 。 
(2) 计算 每 次 迭代 的 模块 度 ， 判 断 是 否 已 达 最 大 并 退出 迭代 : 
(a) 循环 调用 Louvaincore.1louvain 国 数 ， 计 算 每 次 的 模块 度 ; 
(b) 如 果 模 块 度 比 上 一 次 迭代 大 0.001 以 上 ， 则 调用 Louvaincore .compressGraph 压 缩 
当前 图 ， 重 复 步骤 (2); 
(c) 否则 退出 循环 。 
(3) 计算 完成 ， 保 存 结果 。 
循环 中 用 到 的 参数 ( 如 模块 度 增加 量 和 迁 代 次 数 限制 ) 均 可 调整 ， 在 速度 和 效果 间 取 得 平 稀 
就 好 。 
下 面 就 进入 Louvain 算 法 的 核心 代码 ， 先 来 看 计算 使 用 的 Graph 结 构 Louvaincore. 


createLouvainGrapho 


/** 
* 将 RDD 转 换 成 Graph[VertexState,Long] 类 型 的 Graph， 其 中 Long 是 权重 类 型 ， 默 认 是 1 
* Louvain 算 法 将 使 用 返回 的 Graph [VertexState,Long] 进 行 计算 
*/ 
def createLouvainGraph[VD: ClassTag] (graph: Graph[VD,Long]) 
Graph[VertexState,Long]- { 
// 计算 每 个 目的 节点 的 入 度 ， 作 为 权 值 ( 原 算法 是 把 出 入 度 剖 相 加 ) 
// (Long, Long) 表示 这 个 节点 的 (入 度 ， 出 度 ) 
val nodeWeightMapFuncEx = (ctx:EdgeContext[VD, Long, (Long,Long)]) => { 
ctx.sendToDst((ctx.attr,O0L)) 
ctx.sendToSrc((O0L,ctx.attr)) 


} 

// 对 一 个 节点 的 边 信 息 做 聚合 。 入 度 相 加 ， 出 度 相 加 

val nodeWeightReduceFuncEx = (el: (Long, Long),e2:(Long,Long)) => (el. 1+e2. 
el. 2«e2. 2) 


val nodeWeights - graph.aggregateMessages (nodeWeightMapFuncEx, 
nodeWeightReduceFuncEx) 


val louvainGraph - 
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graph.outerJoinVertices (nodeWeights) ((vid,data,weightOption)-» ( 

val weight = weightOption.getOrElse((0L, 0L)) 

val state = new VertexState() 

state.community = vid // 将 每 个 节点 的 社区 ID 初始 化 为 自身 ID 

state.changed = false 

State.communitySigmaTot = weight. 1 // 入 度 

state.internalWeight - weight. 1 

state.nodeWeight = weight. 2 // 出 度 

state 
)).partitionBy(PartitionStrategy.EdgePartition2D).groupEdges( - ) 


return louvainGraph 


这 里 的 主要 工作 就 是 初始 化 vertexState 数 据 结 构 。 


(1) 通过 Graph . ecl erui ui 点 的 出 度 、 。 得 到 中 间 结 果 集 
合 nodeWeights: VertexRDD[(Long, Long)]o 其 中 ( (Long, Long) Vin ^ 
ER, BE). 


(2) 调用 Graph .outerJoinVertices 将 graph: Graph [VD,Long] 和 nodeWeights:Ver- 
texRDD[(Long, Long) ) ] 关联 计算 
(a) 将 每 个 节点 的 社区 ID 设置 为 自身 ID ， 表 示 初 始 时 每 个 节点 作为 一 个 社区 ; 
(b) nodeweights: VertexRDD[(Long, Long) ] 中 的 节点 出 人 度 信息 ， 填 人 Vertex- 
State 结 构 。 
(3) 返回 新 的 Graph [VertexState,Long] 图 结构 。 


后 续 所 有 的 计算 都 在 Graph[VertexState,Longl 上 进行 。 下 面 ， 我 们 看 下 核心 的 


LouvainCore.louvain Po 


/** 
* 在 Graph[VertexState,Long] 结 构 上 ， 选 代 计 算 每 个 节点 所 属 的 社区 ， 直 至 模块 度 达 到 最 大 
* 该 函数 中 不 包含 对 图 的 压缩 ， 压 缩 在 另 一 个 函数 中 实现 
* 
def louvain(sc:SparkContext, graph:Graph[VertexState,Long],minProgress:Int-1, 
progressCounter:Int-1): (Double,Graph[VertexState,Long],Int)- ( 
var louvainGraph - graph.cache() 
val graphWeight - louvainGraph.vertices.values.map(vdata-» 
vdata.internalWeight-vdata.nodeWeight).reduce( ^4 ) 
var totalGraphWeight - sc.broadcast (graphWeight) 
println("totalEdgeWeight: "«totalGraphWeight.value) 


// 收集 每 个 节点 的 邻居 节点 社区 ID、 社 区 权重 并 累加 ， 为 后 面 判 断 所 属 社区 做 准备 

var msgRDD = louvainGraph.aggregateMessages(sendMsgEx, mergeMsg).cache() 

var activeMessages = msgRDD.count() // Scala 有 壬 后 执行 的 特性 ， 这 里 为 保证 数据 可 用 ， 
// 强制 执行 


var updated = 0L - minProgress 
var even - false 
var count - 0 
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val maxlIter = 100000 
var stop e 0 
var updatedLastPhase - OL 


do 


( 


count «- 1 
even - ! even 


// 计算 当前 节点 所 属 的 最 佳 社 区 
val labeledVerts = 
louvainVertJoin(louvainGraph,msgRDD,totalGraphWeight,even).cache() 


// 统计 所 有 社区 的 权重 
val communtiyUpdate = labeledVerts 
.map( (case (vid,vdata) => 
(vdata.community,vdata.nodeWeight-«vdata.internalWeight)])) 
.reduceByKey( -« ).cache() 


// 将 节点 ID 与 新 社区 ID、 权 重 关 联 
val communityMapping = labeledVerts 
.map( (case (vid,vdata) => (vdata.community,vid)}) 
.join(communtiyUpdate) 
.map((case (community, (vid,sigmaTot)) => 
(vid, (community,sigmaTot)) J).cache() 


// 更 新 VertexState 值 ， 建 立 节 点 ID=> 新 VertexState 映 射 
val updatedVerts = 
labeledVerts.join(communityMapping).map(( case (vid, (vdata, 
communityTuple) ) => 
vdata.community - communityTuple. 1 
vdata.communitySigmaTot - communityTuple. 2 
(vid,vdata) 
)).cache() 
updatedVerts.count() 
labeledVerts.unpersist(blocking - false) 
communtiyUpdate.unpersist (blocking-false) 
communityMapping.unpersist (blocking-false) 


// 得 到 更 新 后 的 Graph 
val prevG = louvainGraph 
louvainGraph - 
louvainGraph.outerJoinVertices(updatedVerts) ((vid, old, newOpt) => 
newOpt.getOrElse(old)) 
louvainGraph.cache() 


// 更 新 msgRDD 用 于 下 次 选 代 ， 并 将 不 用 的 临时 表 释 放 

val oldMsgs = msgRDD 

msgRDD - louvainGraph.aggregateMessages(sendMsgEx, mergeMsg).cache() 
activeMessages - msgRDD.count() 

oldMsgs.unpersist (blocking-false) 

updatedVerts.unpersist (blocking-false) 
prevG.unpersistVertices(blocking-false) 


if (even) updated = 0 
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updated = updated + louvainGraph.vertices.filter( . 2.changed).count 
if (leven) ( 
println(" # vertices moved: "+ 


java.text.NumberFormat.getInstance().format (updated)) 
if (updated >= updatedLastPhase - minProgress) stop += 1 
updatedLastPhase - updated 
} 


} while ( stop <= progressCounter && (even || (updated > 0 && count < maxIter))) 


println("\nCompleted in "+count+" cycles") 


// 重新 计算 整体 图 的 模块 度 
val newVerts = louvainGraph.vertices.innerJoin(msgRDD) ((vid,vdata,msgs)-» ( 
val community - vdata.community 
var k i in - vdata.internalWeight 
var sigmaTot = vdata.communitySigmaTot.toDouble 
msgs.foreach(( case( (communityId,sigmaTotal),communityEdgeWeight ) => 
if (vdata.community -- communityId) k i in += communityEdgeWeight 
) 


val M = totalGraphWeight.value 
val k i = vdata.nodeWeight + vdata.internalWeight 
// 计算 新 模块 度 
var q = (k i in.toDouble / M) - ( ( sigmaTot *k i) / math.pow(M, 2) ) 
//println(s"vid: $vid community: $community $q = ($k i in / $M) - 
//( ($sigmaTot * $k i) / math.pow($M, 2) )") 
if (q < 0) 0 else q 
} 


val actualQ = newVerts.values.reduce(_+_) 


// 返回 更 新 后 的 模块 度 和 完整 图 
return (actualQ,louvainGraph,count/2) 


} 
louvain 图 数 比 较 长 ， 基 本 上 分 为 6 部 分 。 


(在 graph:Graph[VertexState,Long] 上 执行 Graph.aggtegateMessages, 计算 每 个 
节点 对 其 所 有 邻居 社区 的 权重 ， 得 到 msgRDD: VertexRDD[Map[(Long， Long), 


Long] ] 。 这 个 RDD 是 个 map，( 社 区 ID， 社 区 权重 ) —9 节点 相对 该 社区 的 权重 。 

(2) 对 graph:Graph [VertexState,Long] 和 msgRDD: VertexRDD[Map[(Long, Long), 

Long] ] 做 关联 ， 对 每 个 节点 计算 其 属于 邻居 社区 的 模块 度 A5， 找 到 最 大 的 A6， 更 新 该 节 
点 所 属 的 社区 。 得 到 labeleqverts: vertexRDD[VertexState] 集 合 ， 记 录 了 节点 ID 
和 对 应 的 新 VertexStateo。 

(3) 将 新 社区 信息 更 新 到 graph:Graph[VertexState,Long] 上 ， 分 几 步 实现 : 


(a) 更 新 每 个 社区 权 值 ， 在 labeleqverts: VertexRDD[VertexState] 上 计算 每 个 社 
区 ID 新 权 值 ， 得 到 communtiyUpdaate: RDD[ (Long, Long) Æ, keyÆ4t XID, 


162 第 7 章 


Spark 图 计算 


value 是 3 


所 社区 权重 ; 


(b) 将 label 


Long)] 
key 是 市 


dVerts: Vert xRDD[VertexState]fllcommuntiyUpdate: RDD[ (Long, 
关联 ， 得 到 communityMapping: RDD[(VertexId, (Long, Long))] ^, 
点 ID ，value 是 (社区 ID, 新 社区 权重 ); 


(c) 将 labeledvVerts: VertexRDD [VertexState] 和 communityMapping: RDD[(VertexId, 
(Long, Long))] dA fj join 操作 ， 得 到 updatedVverts: RDD[(Vertexid, 
VertexState)] 人 集合，key 是 节点 ID ，value 是 包含 了 新 社区 ID 和 社区 权重 的 


Vertex 


State; 


(d) 最 后 将 graph:Graph[lVertexState,Long] 和 updatedVerts: RDD[(VertexId, 


Vertex 


State) ] 执 行 outerJoinvertices 操 作 ， 得 到 更 新 了 本 轮 计算 的 新 社区 信息 


的 louvainGraph: Graph[VertexState, Long]e 
(4) 根据 新 的 社区 信息 ， 更 新 msgRDD。 
(5) 判断 是 否 需 要 停止 迭代 ， 如 继续 迭 代 ， 则 重复 步 又 (2)。 
(6) 重新 计算 整个 图 的 模块 度 ， 返 回 结果 。 


7.3.4 “小 试 牛刀 : ERREA 


同学 ， 他 们 之 间 的 关系 互 为 好 友 ， 如 图 7-5 所 示 。 


人 物 关系 : 好 友 
数据 来 自 表 7-4、 表 7-5 


图 7-5 ”好 友 关 系 示例 
我 们 用 数字 代表 他 们 的 ID， 参 见 表 7-4。 


理解 了 GraphX 实 现 的 Louvain 算 法 ,我 们 用 一 个 示例 来 测试 下 算法 的 效果 。 假 设 有 下 面 儿 位 
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表 7-4 ”好 友 关 系 示例 


ID 姓名 ID 姓名 
1 常 迪 6 陈 明 
2 刘 宝 7 Fidh 
3 王 成 8 王 英 
4 žk 9 RE 
5 SU 


他 们 之 间 的 关系 也 月 


表 7-5 ”好 友 关 系 示例 


月 表 来 表示 ， 如 表 7-$ 所 示 , “2 1” 就 表示 刘 宝 和 是 常 迪 的 好 友 。 


ŽID 好 友 ID FEID 好 友 ID 
2 1 7 1 
3 1 8 1 
3 2 8 7 
2 3 1 7 
1 3 3 7 
4 3 5 2 
4 1 9 5 
1 4 3 5 
6 2 9 2 
2 6 1 2 
7 6 


我 们 将 这 两 列 数字 写 人 文件 ， 作 为 Louvain 算 法 的 输入 ， 放 到 Spark 上 运行 ， 会 得 到 如 图 7-6 


所 示 的 一 组 结果 。 


15/12/29 20:35:23 WARN util.NativeCodeLoader: 


(6, (community: 
, (community: 
, (community: 
, (community 
, (community: 
, (community: 
, (community: 
, (community: 
, (community: 


2 
3 
3 
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2 
2 
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2 


,communitySigmaTot:11,internalWeight:0 
,communitySigmaTot:10,internalWeight:0 
,communitySigmaTot:10,internalWeight:0 
communitySigmaTot:10,internalWeight:0 
,communitySigmaTot:11,internalWeight:0, 
,communitySigmaTot:11,internalWeight:0 
,communitySigmaTot:11,internalWeight:0 
,communitySigmaTot:10,internalWeight:0 
,communitySigmaTot:11,internalWeight:0 


图 7-6 ”好友 关系 分 析 


d: FH 
结果 


Unable to load native-hadoop library for 
,nodeWeight: 
,nodeWeight: 
,nodeWeight: 
,nodewWeight : 
nodeWeight: 
,NodeWeight: 
,nodeWeight:2 
,nodeWeight: 
,nodeWeight: 


如 图 7-6 所 示 ， 第 一 列 是 各 位 同学 的 ID ,第 二 列 community 就 代表 该 同学 的 所 属 社 区 了 。 所 以 


我 们 看 到 , 刚才 复杂 的 好 友 关 系 被 分 析出 来 7 


大 个 社区 。 一 个 是 以 刘 宝 同学 为 核心 的 , 成 员 有 陈 明 


(6)、 王 成 (3 )、 商 玉 (9 )、 魏 林 (5 ); 男 一 个 是 以 王 成 同学 为 核心 的 ， 成员 有 常 迪 (1 )、 卢 唱 
(7)、 王 英 (8), $E (4) 


AE 
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现在 ， 你 只 要 把 你 周围 的 朋友 关系 输入 文件 并 调用 Louvain 算 法 ， 就 可 以 轻松 判断 谁 是 你 们 


之 间 的 核心 人 物 了 。 是 不 是 很 有 趣 ? 


7.8.85 ”真实 的 场景 :新浪 微 博 关系 分 析 


看 了 上 一 节 的 示例 ， 我 们 再 用 实际 的 数据 看 下 效果 。 这 里 选取 新 浪 微 博 2014 年 6 月 份 的 一 部 
分 用 户 收听 关系 数据 ( 数据 来 源 于 网 络 )， 我 们 看 下 能 否 分 析出 谁 是 其 中 的 热门 人 物 。 


我 们 用 1000 万 条 的 微 博 关注 数据 做 验证 ( 即 这 个 图 有 1000 万 条 边 )。 E 7 所 示 ， 
包括 用 户 ID 、 注 册 信 息 、 等 级 等 , 这 里 我 们 重点 关注 用 户 ID 和 关注 列表 , 这 两 个 字段 能 够 体现 用 
户 之 间 的 关系 。 


SF, 


,QQ,Msn,Email, 创 建 时 间 ， A 


1; 
3514017581 , 2840400877 , 284095 
1,1934167143,2698830971, 2859236282, 1916809075, 193058599 7985647 ,2403228864,2299596367， 
,0,0,6 


2297157182 $2 


图 7-7 原始 微 博 数据 示例 
这 样 的 原始 数据 是 无 法 直接 分 析 的 , 我 们 需要 做 解析 和 处 理 , 最 后 得 到 的 数据 格式 如 


当然 
图 7.8 所 示 。 


Source,Target 


如 图 7- 
点 ， 第 二 列 是 目标 节点 ， 这 相 


8 所 示 ， 第 


我 们 的 运行 环境 


一 列 是 用 户 ID， 第 二 列 是 被 关注 者 的 ID。 
一 行 就 代表 了 微 博 


并 是 3 台 Xeon E5606 (44%, 32 GB 内 存 ) 的 Spark 集 群 ， 分 别 对 1000 万 条 和 3000 


图 7-8 


1207836510, 
1426659535, 
1591927192, 
1145622017, 


1829222301, 
1844465225, 
1583372424, 
1676377244, 
1528016674, 


1626907191 
1429336312 
1591927192 
1145622017 
1668217657 
1950725943 
1581712833 
1676377244 
1528016674 


格式 化 后 的 微 博 数 据 示例 


上 的 一 条 


也 就 是 说 ,第 一 列 是 


图 中 的 源 节 


万 条 关注 关系 数据 执行 Louvain 算 法 。 性 能 对 比如 表 7-6 所 示 。 


表 7-6 ”数据 分 析 性 能 对 比 
数 据 量 运行 时 间 
边 数 ， 1000 万 节点 数 ，405 万 10 分 钟 
边 数 ，3000 万 “节点 数 ，1065 万 54 分 钟 
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Louvain 算 法 实际 是 O(n”) 的 时 间 复 杂 度 。 可 以 看 出 ， 随 着 图 规模 的 扩大 ， 计 算 量 的 增长 更 加 
明显 ， 其 间 并 非 线 性 关系 。 

以 1000 万 数据 样本 为 例 , 我 们 共 分 析 得 到 100 个 主要 社区 ( 这 里 把 成 员 数 量 超过 500 的 社区 算 
为 主要 社区 )， 形 成 一 个 如 图 7-9 所 示 的 社区 分 布 图 。 


TE 
图 7-9 1000 万 微 博 关 系数 据 分 析 结 果 可 视 化 展现 


该 图 用 Gephi 软 件 生成 。 因 为 数据 量 比较 大 , 网 上 通常 的 可 视 化 库 如 ECharts 等 效果 都 不 理想 ， 
是 Gephi 比 较 强 大 ， 跨 平台 、 开 源 ， 是 一 个 做 SNA 理 想 的 可 视 化 分 析 工 具 。 


我 们 来 看 看 这 些 社区 是 什么 。 先 截取 圈子 成 员 最 多 的 社区 微 博 ID ， 如 图 7-10 所 示 。 


Count WeiboID 
76803 5128778185 
71885 5096677199 
44023 5147135536 
36671 5149153146 
36609 5136075296 
31278 5102661437 
25280 5149628707 
24845 5142589487 
22190 5127036370 
18853 5088164744 
17707 5108511555 
17564 5157873723 
17341 5051267375 

5143855901 
5121404532 
3953943931 
5138067801 
5151317833 
9987 5699507225 


5i 


图 7-10 ”社区 排名 示例 
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如 图 7-10 所 示 ， 第 一 列 是 社区 的 成 员 数 量 ， 第 二 列 是 社区 核心 的 微 博 ID。 因 数据 是 2014 年 
的 ， 部 分 ID 可 能 已 失效 ， 部 分 卫 的 数据 也 会 不 准 。 但 我 们 仍 能 从 排名 靠 前 的 社区 里 看 到 一 些 有 
比如 ， 其 中 一 个 社区 是 卖 婴 幼儿 产品 的 官 微 ， 如 图 7-11 所 示 。 


234 10559 718 
关注 粉丝 


wm ur 


| EE CH) 实业 发 展 有 限 公 司 


图 7-11 社区 示例 
我 们 还 能 找到 某 著名 演员 的 粉丝 社区 ， 如 图 7-12 所 示 。 


她 的 主页 她 的 相册 


421 3845913 453 | 全 部 v 会 热门 
| 
1 


X 粉丝 微 博 


| 激 多 梦想 被 现实 拿 来 充饥 ， 有 些 事 绝 不 能 错过 REREH, AREFE, BEEN Y 
金 '. 固 国 @ 亲 浪 综艺 旦 @ 江 西 卫视 带 着 爸 妈 去 旅行 


图 7-12 ”社区 示例 
我 们 来 看 看 她 的 粉丝 社区 是 什么 样 的 。 在 抽样 的 1000 万 数据 中 ， 直 接 关注 她 的 粉丝 数量 C 如 
图 7-13 所 示 ， 核 心 的 节点 即 是 该 演员 的 微 博 ID ) 大 概 100 多 个 。 但 经 过 Louvain 算 法 分 析 后 ， 我 们 
再 来 看 看 她 的 粉丝 社区 。 如 图 7-14 所 示 ， 这 时 我 们 发 现 其 粉丝 社区 的 成 员 数 量 达到 1 万 个 以 上 ， 
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扩大 了 100 倍 ! 这 也 说 明了 她 关系 链 的 影响 力 比较 大 ， 当 她 发 布 一 条 信息 时 ， 可 以 通过 其 关系 链 
影响 力 ， 成 百倍 的 扩大 传播 范围 。 


1823?#15301 
2175959611 1740975377 
2153402640 19000245772157982677 -1067380295 
1631452347 20019800, AMDO S 1001485023 1943975461 
2137066251 2178009927 183442871010650 aea 17212157276463 
12827776422111275743 人 410953903052111918531 21787087331029405257 
16517616241069395160 1925209315 1088569107 
2153429930 21534411024438941843 Dj 1222209315. 59967565 


1016364643 -0745229890542153465470 168914794... 2173701885 1110973332 
2067022131 12012833911234201647 2040268510195 14892 


2151844590 . 2043405445 1630266727 1670297521 
216136371540, 5205993 1648870644 - 1748066042 ,2000109105 -12183905851 027878071 


2153452372 1040929672100804 456372 — 41632604404948921345 2/92/00 


2183911390 176104240759 20502885140 8 1289320832 


1959918864 2145921823 
2079394711 0984 1826508303 22928! 1 174141508514 12301095 


1553597 
10080109142 136919223 5. 4683184765 9 
1942192757^  139)997 0511856304485 ` 
2156802577 1105764753 1818050397 19204401; 602831 1670283891 
1814881484 1262411684 1100102132 2831351540 2112385627 
2153458634 1442434361 1815269512 1975975183 
2032162947 2142817165 1040276177 2165856483 
2153463740 ， 10436719022139 从 2253 1814880965 


1691 202084 04921 20924033572012518995 


1839402925 
1692883310 


图 7-13 ”粉丝 社区 可 视 化 示例 


图 7-14 ”社区 分 析 结 果 可 视 化 示例 
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最 后 ， 我 们 看 看 她 的 社区 里 都 有 哪些 类 


3261692223 
3028617833 
3221711201 
3259147044 
3259154110 
2671925027 
3191671495 
3158246263 
2833862400 
3153979080 
3174042654 
2694275643 
2764955005 
2921220312 
2940429325 
2958856855 
2875396815 
3033822323 
3178557202 
2810150734 
2242661672 
3228252993 
3214257523 


DIN DE: 


由 的 粉丝 ， 如 图 7-15 所 示 。 


PoohJeter 体育 
` BEBA 
RoseInLife 
E E 
晓 月 巫山 云 
ZEE 
2013 湖 南 卫 视 元 宵 喜 乐 会 
恨 ni_ 让 wo 如 此 shang 文艺 
灿 、 若 信仰 
善良 1234hu 
5 rq 
豆 豆 冰山 -期 待 北 外 
Cyuan1987 汽 车 
金昌 交警 田 军 
wy 粉 
黄金 满 地 一 叶 知 秋 ， 
冬 - 花 - 花 

幸福 玉 姐 1999 4 
少年 新 的 起 航 2013 
喂 - 阿 威 新 闻 趣事 _ 


健康 
健康 


健康 
娱乐 


健康 


娱乐 
旅游 
旅游 
旅游 


汽车 


美食 


视 频 音 


图 7-15 ”粉丝 社区 分 析 示 例 


如 图 7-1$ 所 示 ， 第 一 列 是 微 博 ID ， 第 二 列 是 昵称 ， 第 三 列 则 是 该 用 户 的 标签 。 从 标签 上 来 分 
Ki. MU. LAEE ENEK AERE 


到 这 里 , 我 们 的 社交 网 络 分 析 之 旅 就 告 一 段落 了 。 通 过 Spark + GraphX + Louvain 算 法 的 组 合 ， 


我 们 可 以 轻松 地 将 这 套 方法 应 用 到 其 他 分 析 场 景 上 。 开 发 人 员 只 需 关注 具体 分 析 算 法 
性 能 都 可 以 交 给 Spark + GraphX 框 架 


运算 库 、 
所 在 。 


数据 量 、 扩 容 / 容 灾 能 


， 基础 的 图 
这 是 最 大 的 优势 


处 理 ， 
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Spark MLlib 


MLlib 是 Spark 为 解决 机 器 学 习 问 题 开发 的 库 ， 这 些 问题 包括 : 分 类 、 回 归 、 聚 类 、 协 同 过 滤 
等 。 另 外 ，Spark 从 1.2 版 本 开始 为 搭建 机 器 学 习 Pipeline 系 统 提 供 接口 : org.apache.spark. 
ml .Pipeline。Pipeline API 为 不 同 训练 数据 的 处 理 、 特 征 选择 的 处 理 ， 以 及 参数 调 优 提供 了 便 
利 。 从 本 质 上 看 ，MLlib 就 是 RDD 上 一 系列 可 供 调 用 的 函数 的 集合 。 


8.1 机 器 学 习 简 介 


开始 介绍 MLlib 前 ， 我 们 先 简 单 介 绍 一 下 机 器 学 习 。 机 器 学 习 涉及 的 知识 面 比较 广 ， 本 书 并 
不 打算 做 太 多 深入 探讨 , 感 兴趣 的 读者 可 以 查看 8.1.5 节 的 参考 资料 。 当 然 , 熟悉 这 块 的 读者 也 可 
以 略 过 这 一 节 。 


8.1.1 什么 是 机 器 学 习 


什么 是 机 咒 学 习 ? Herbert Sinmon 给 “学 习 ” 做 出 了 这 样 的 定义 :“ 如 果 一 个 系统 能 够 通过 执 
行 某 个 过 程 而 改进 性 能 ， 这 就 是 学 习 。” 更 通俗 的 理解 就 是 : 机 屁 学 习 能 够 自动 地 从 数据 中 学 习 
“程序 ” ， 而 这 个 “程序 ”不 是 人 来 编写 的 。 我 们 来 看 一 个 简单 的 例子 。 

平面 上 有 两 类 点 : 黄色 点 表示 类 别 a， 蓝 色 点 表示 类 别 b ( 参见 图 8-1 )。 这 时 我 们 希望 能 够 找 
到 平面 上 的 一 条 曲线 L， 将 两 个 类 别 的 点 分 成 两 个 空间 ， 使 类 别 a 属 于 空间 A， 类 别 b 属 于 空间 B。 
这 样 一 来 ， 对 于 一 个 新 出 现 的 颜色 未 知 的 点 X， 我们 通过 查看 点 X 沙 在 空间 A 还 是 空间 B 中 来 判断 
X 属 于 哪个 类 别 。 
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| Run|| Clear | 42. 100 DE Run || Clear | 4 2 - 100 
图 8-1 SVM 算法 效果 演示 : 学 习 的 对 象 ( 另 见 彩 插图 8-1 ) 
当然 ， 这 个 任务 从 人 的 视觉 上 来 看 是 比较 容易 完成 的 。 人 也 可 以 将 这 个 曲线 LL 用 一 个 数学 表 
达 式 ( 比如 二 次 方程 ) 来 表示 ,但 这 个 曲线 方程 是 确定 的 ， 当 观察 到 的 数据 发 生变 化 时 ， 需 要 重 
新 调整 方程 式 ,， 因 此 扩展 性 不 好 。 机 器 能 够 根据 已 经 观测 到 两 个 类 别 不 同 的 情况 自动 给 出 不 同 的 
曲线 L 的 具体 表达 式 , 这 里 的 L 就 是 我 们 常 说 的 学 习 到 的 模型 ( 参见 图 8-2 )。 这 是 一 个 有 监督 学 习 
的 典型 示例 。 


| Run || Clear | 2 100 | Run || Clear | 4 2 100 
图 8-2 ”SVM 算法 效果 演示 : 学 习 的 效果 ( 另 见 彩 插图 8-2 ) 
这 个 例子 中 自动 寻找 曲线 L (分 界面 ) 的 算法 是 由 SVM 程 序 完 成 的 ， 参见 http://www.csie.ntu. 
edu.tw/~cjlin/libsvm/。 更 多 内 容 请 参考 关于 支持 向 量 机 (support vector machine ) 的 其 他 文献 。 
如 今 ， 机 器 学 习 已 经 被 广泛 应 用 于 各 个 领域 ， 举 例如 下 。 
a 图 像 。 人 脸 识 别 任务 ， 可 以 识别 图 像 中 人 脸 的 位 置 。 
a 声音 。 将 声音 转换 成 文字 任务 ， 著 名 的 应 用 有 苹果 的 Siri。 
D 文本 。 拼 写 纠 错 ， 搜 索引 擎 大 量 应 用 文本 挖掘 。 
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8.1.2 ”机 器 学 习 示 例 
本 节 我 们 再 通过 一 个 小 例子 深入 了 解 下 机 器 学 习 及 其 相关 概念 。 
这 个 例子 旨 在 根据 多 次 测量 估计 腾讯 大 厦 的 精确 高 度 x ( 参见 图 8-3 )。 


图 8-3 ”腾讯 大 厦 
测量 的 具体 过 程 是 将 卷 尺 从 顶楼 抛 到 地 面 来 读数 测量 。 由 于 大 楼 表面 凹凸 不 平 ， 以 及 风力 等 


原因 ， 每 次 读 到 的 数据 都 不 太一 样 : 193.3m、193.7m、192.8m……' 那 么 ， 大 厦 精 确 的 高 度 应 该 
是 多 少 呢 ? 假设 实际 高 度 是 193.2 m， 我 们 称 实际 高 度 为 理论 值 。 我 们 可 能 永远 不 知道 理论 值 具 
体 是 多 少 , 但 可 以 让 估计 值 尽量 接近 这 个 理论 值 。 
最 小 二 乘法 就 是 一 个 这 样 的 理论 。 它 定义 多 次 测量 值 的 误差 之 和 为 累积 误差 : 
累积 误差 = Y 〈 观测 值 - 理 论 值 ) ? 
我 们 用 gCo 表 示 其 累积 误差 ，x 表 示 理 论 值 的 估计 值 ，x 表 示 第 ;次 测量 ， 得 到 数学 表达 式 : 


g= Ps) 


这 里 xz 为 已 知 值 ， 依 据 最 小 二 乘法 可 知 ， 当 累积 误差 最 小 时 ， 我 们 就 得 到 一 个 最 接近 理论 值 
的 估计 值 。 这 是 求 函 数 极 值 的 常见 问题 。 我 们 对 x* 求 导 ， 得 到 公式 : 


z'o, =$ 2-1) -20x-Y-x) (8.1) 
Fe 为 0 时 ， 即 eQ)'-0 ，g(x) 取 极 小 值 ， 我 们 令 公 式 8.1 等 于 0， 求解 方程 式 得 到 : 


1 n 
cl» 
na 
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估计 值 x 等 于 各 次 观测 值 x 的 平均 值 。 
所 以 , 我 们 日 常 中 使 用 多 次 测量 , 然后 对 多 次 测量 求 平均 值 的 做 法 是 有 严谨 数学 依据 的 。 当 
然 ， 这 个 例子 比较 简单 ， 在 机 咒 学 习 的 其 他 问题 中 ， 问 题 的 抽象 和 求解 可 能 要 比 这 里 复杂 得 多 。 


8.1.3 ”机 器 学 习 的 基本 方法 


机 器 学 习 已 经 形成 了 一 套 完善 的 方法 论 ， 在 很 多 文献 中 “机 器 学 习 方 法 = 模型 + 策略 + 算 
法 ”。 在 上 一 节 的 例子 中 ， 我 们 介绍 了 最 小 二 乘法 ， 这 里 将 这 个 例子 和 机 器 学 习 的 基本 方法 做 一 
个 简单 的 对 应 ， 如 下 。 

口 模型 (model)。 计 算 机 如 何 表 达 要 解决 的 问题 ， 就 是 机 器 学 习 的 模型 ， 这 里 使 用 一 个 函 
数 /fo) 来 表达 ， 具 体 函 数 实 现 是 为 求 均值 。 
O 策略 〈strategy)。 模 型 通常 是 有 参数 的 ， 所 以 可 能 的 模型 有 很 多 个 ， 如 何 评估 模型 的 优 
劣 就 是 机 器 学 习 的 策略 ， 这 里 通过 计算 误差 平方 和 评估 模型 的 优 劣 ， 这 个 误差 平方 和 通 
常 叫 作 平 方 损失 函数 。 
O 算法 (algorithm )。 损 失 函 数 评估 模型 的 优 劣 通常 通过 一 个 搜索 算法 来 找到 最 优 的 模型 , 
这 里 通过 函数 求 导 来 搜索 损失 函数 值 最 小 的 算法 ， 借 此 来 选择 最 优 模型 。 

机 器 学 习 的 方法 丰富 多 样 ， 模 型 可 以 是 函数 hx)， 常 见 的 还 有 概率 分 布 P(ylx); 策略 可 以 是 平 
方 和 最 小 ， 常 见 的 损失 函数 (loss function ) 还 有 0-1 损 失 函 数 、 绝 对 损失 函数 、 对 数 损失 函数 等 ; 
算法 可 以 是 求 导 ， 也 可 以 是 EM 算法 等 。 

机 器 学 习 的 一 般 过 程 大 概 可 以 分 为 几 个 步 又: 

(1) 准备 训练 数据 集合 ; 

(2) 选择 学 习 模型 ; 

(3) 选择 学 习 策 略 ; 

(4) 实现 求解 最 优 模型 的 算法 ; 

(5) 使 用 最 优 模型 对 新 数据 进行 预测 。 

整个 过 程 可 以 用 图 8-4 表 示 。 
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图 8-4 ”机 器 学 习 的 一 般 过 程 


8.1.4. 机 器 学 习 的 常见 技巧 


上 一 节 介绍 了 机 咒 学 习 的 基本 方法 和 一 般 步 又, 但 是 实际 应 用 过 程 中 , 每 一 个 步骤 都 有 很 多 
细致 的 工作 要 做 。 


首先 ， 在 准备 训练 数据 时 ， 训 练 数据 要 注意 满足 以 下 两 点 : 
口 尽 可 能 和 应 用 场景 同 分 布 ; 
口 尽 可 能 充分 ， 而 且 充 足 。 
为 了 防止 过 拟 合 和 模型 验证 ， 通 常 我 们 会 把 训练 数据 分 为 训练 集合 、 验 证 集合 和 测试 集合 : 
训练 集合 用 于 模型 训练 ， 验 证 集合 用 于 模型 选择 ， 测 试 集 合用 于 模型 评 佑 。 
选择 好 训练 样本 以 后 , 我 们 需要 将 其 通过 特征 向 量 表 示 成 算法 能 够 理解 的 形式 。 特 征 的 数值 
类 型 表示 形式 如 下 。 
口 浮 点数 特 征 。 比 如 商品 的 价格 。 
口 离散 值 特征 。 比 如 商品 的 颜色 ， 用 每 个 数字 表示 一 种 颜色 。 
口 二 值 特征 。 例 如 ， 一 个 广告 标题 中 是 否 有 “打折 ”这 个 词 作为 特征 ， 有 则 特征 取 值 为 1， 
没有 则 取 值 为 0。 
其 中 , 直接 使 用 浮 点 数 特征 时 ， 如 果 不 同 特征 取 值 范围 差异 很 大 ， 可 能 导致 学 习 的 模型 不 是 
最 优 解 . 所 以 我 们 需要 把 不 同 特征 的 取 值 都 映射 到 相同 的 范围 内 ,通常 通过 归 一 化 (normalization ) 
方法 进行 缩放 ， 还 需要 处 理 缺 失 值 (missing value) 和 异常 值 ， 异 常 值 比如 本 章 案 例 中 需要 过 滤 
点 击 数 大 于 曝光 数 的 样本 。 当 特征 空间 比较 大 时 , 我 们 需要 做 特征 选取 ( feature selection ) 这 时 ， 
我 们 应 选择 信息 增益 大 的 特征 ， 否 则 模型 会 太 大 ,训练 和 预测 效率 都 会 很 低 。 特 征 选 择 上 , 一方 
面 不 是 特征 越 多 效果 越 好 , 特征 之 间 可 能 携带 的 信息 有 重合 ; 另 一 方面 则 需要 保证 特征 包含 足够 
区 分 需要 识别 的 对 象 的 信息 。 业 界 的 一 些 系 统 已 经 能 够 做 到 部 分 机 器 自动 选取 特征 的 过 程 。 
选择 模型 上 ,不 是 越 复 杂 的 模型 越 好 ,也 没有 万 能 的 模型 ， 往 往 诠释 要 解决 的 问题 本 身 比 理 
解 模型 更 难 。 模 型 选择 一 般 还 要 考虑 以 下 几 点 。 
口 训练 时 间 。 随 着 观测 数据 的 变化 ， 需 要 重新 训练 模型 ， 训 练 新 模型 的 时 间 不 能 太 长 。 
口 预测 时 间 。 模 型 上 线 工 作 的 时 候 ， 对 于 新 的 输入 预测 得 分 所 需要 的 时 间 。 
口 模型 的 存储 。 模 型 运行 的 时 候 需 要 多 少 内 存 空间 。 
能 够 理解 和 调试 选择 的 算法 ， 对 于 理解 模型 和 优化 效果 也 有 很 大 帮助 。 
一 般 模 型 需要 多 次 调 优 才能 够 取得 较 好 的 效果 , 这 时 候 分 析 案 例 往 往 能 够 洞察 你 的 问题 。 比 
如 , 若 发 现 预测 效果 不 好 的 样本 普遍 存在 某 个 规律 , 通常 我 们 会 从 细 分 的 各 种 维度 去 分 析 模 型 的 
效果 ,来 确定 下 一 步 的 优化 方向 。 
实际 工程 应 用 中 ， 准 备 数据 和 特征 往往 占据 大 比例 工作 量 。 
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8.1.5 机 器 学 习 参 考 资料 


前 面 我 们 通过 简单 例子 对 机 需 学 习 理 论 和 方法 进行 了 简单 介绍 。 机 需 学 习 涉 及 的 知识 面 较 
广 , 包括 了 数理 统计 、 数 值 优化 、 线 性 代数 等 。 这 里 介绍 一 些 资料 , 供 感 兴趣 的 朋友 进一步 学 习 。 

首先 要 推荐 李 航 的 《统计 学 习 方 法 》 本 书 通俗 易 懂 ， 系 统 地 介绍 了 机 器 学 习 的 常见 算法 。 
另外 ， 书 中 还 提供 不 少 例 子 ， 通 过 手工 计算 例子 读者 能 够 较 快 地 掌握 算法 。 

此 外 , 机 器 学 习 大 牛 AndrewNg 的 视频 课程 Macpinre Learning 是 目前 的 高 校 经 典 课 程 , 其 中 也 
包括 不 少 参 考 资料 和 练习 题 。 具 体 参 见 : 

http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course-MachineLearning 

网 易 公 开课 做 了 一 个 中 文字 幕 的 版 本 : 

http://v.163.com/special/opencourse/machinelearning.html 

Christpher M. Bishop 的 著作 Pattern Recognition And Machine Learning EFEN WRI] NLA 
的 经 典 教材 。 该 书 每 章 都 有 相应 的 习题 及 答案 , 深入 浅 出 地 介绍 了 模式 识别 与 机 器 学 习 的 基本 理 
论 和 主要 方法 。 同 时 , 本 书 还 涵盖 了 模式 识别 与 机 器 学 习 领 域 的 一 些 最 新 进展 ,不 仅 适 合 初 学 者 
学 习 ， 而 且 对 专业 研究 人 员 也 有 很 大 的 参考 价值 。 

Toby Segaran 的 《集体 智慧 编程 》 和 Peter Harrington 的 《机 器 学 习 实战 》 也 是 比较 好 的 入 门 
书 。 这 两 本 书 的 特点 是 没有 深奥 的 数学 原理 ,而 是 通过 “问题 实例 + 实际 代码 + 运行 效果 ”来 介绍 
机 需 学 习 算 法 ， 代 码 采用 Python 语言 编写 ， 十 分 便于 初学 者 调试 算法 。 

此 外 ，Pedro Domingos 的 文章 “AFew Useful Things to Know about Machine Learning” 也 是 经 
骨 ， 对 于 机 器 学 习 应 用 实践 提供 了 很 多 建议 。 


8.2 MLlib 库 简 介 
接 下 来 我 们 先 简 单 介 绍 下 MLlib 库 中 基础 的 数据 结构 和 常用 的 算法 ， 后续 的 案例 中 会 用 到 。 


8.2.1 基础 数据 类 型 

为 了 便于 理解 后 续 的 案例 ， 这 里 介绍 几 个 常用 的 基础 数据 类 型 。 

1. 向 量 

向 量 (vector) 通过 import mlib.linalg.Vvectors 来 使 用 ，MLlib 支 持 稠密 向 量 和 稀 玻 向 
量 。 稀 巩 向 量 只 存储 值 非 零 的 项 ， 比 如 ， 声 明 vectors .sparse(1095023,Arravy(1,7,31) ， 
Array(1.0,1.0,0.0))， 其 中 1095023 表 示 最 大 的 下 标 ， 第 一 个 数组 表示 非 零 值 的 下 标 ， 第 二 
个 数组 表示 非 零 项 的 具体 值 。 

2. labeled point 

labeled point 是 一 个 带 标注 (label) 的 向 量 ， 也 可 以 是 稠密 或 者 稀 玻 的 ， 用 于 监督 学 习 
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中 表示 一 个 特征 向 量 和 一 个 标注 。 这 里 规定 标注 是 aouble 类 型 。 对 于 二 分 类 来 说 ,标注 可 以 是 0 
(HA) RAL CEH )。 
3. 各 种 模型 类 


训练 算法 输出 就 是 各 种 模型 (model) 类 ， 本 章 案 例 使 用 的 是 org.apache.spark.mllib. 
classification.LogisticRegressionModel， 常 用 的 接口 如 下 。 


D LogisticRegressionModel .1oad()。 加 载 一 个 训练 好 的 模型 ; 

D] LogisticRegressionModel.predict(). 对 输入 进行 一 次 预 估 , 输入 参数 是 一 个 向 量 
组 成 的 RDD; 

口 LogisticRegressionModel.save(). 将 训练 好 的 模型 保存 到 磁盘 ， 保 存 的 模型 通过 
1oadq 加 载 。 


另外 , 在 MLlib 算 法 的 实现 过 程 中 , 代码 中 向 量 计算 频繁 出 现 Breeze 相 关 的 函数 。Breeze 是 矩 
阵 (matrix ) 及 向 量 ( vector ) 的 计算 库 。Breeze 是 ScalaNLP 中 的 项 目 ， 具 体 参 考 www.scalanlp.org。 


8.22 主要 的 库 
MLIlib 库 主要 有 这 几 块 : 分 类 、 回 归 、 肾 类、 推荐 等 ( 参见 表 8-1 )。 
表 8-1 主要 的 类 库 
主要 的 类 库 说 "m 
mllib.classification 分 类 算法 ， 包 括 二 分 类 和 多 分 类 ， 实 现 了 逻辑 回归 、 村 素 贝 叶 斯 、SVM 等 算法 ， 常 用 的 


类 有 : LogisticRegressionWithLBFGS, LogisticRegressionWithSGD, NaiveBayes, 


SVMWithSGD 

mllib.clustering 聚 类 ， 实 现 了 K-Means、LatentDirichletAllocation 算 法 ， 支 持 KMeans、LDA 

mllib. recommendation 主要 使 用 协同 过 滤 方 法 做 推荐 ， 实 现 了 Altemating Least Squares 算 法 ， 常 用 的 类 有 ALS 

mllib.regression 回归 算法 ， 常 用 的 类 有 LinearRegressionWithSGD 、RidgeRegressionWithSGD 、 
LassoWithSGD 

mllib.tree 实现 了 决策 树 和 随机 森林 等 算法 ， 常 用 的 类 有 pecisionTree、GradientBoosteqTrees、 
RandomForest 


广告 是 互联 网 公司 的 主要 利润 来 源 之 一 , 本 章 将 介绍 一 个 广告 点 击 率 预 估 的 场景 。 此 处 我 们 
主要 使 用 其 中 分 类 算法 中 的 逻辑 回归 ， 具 体 实 现 有 LogisticRegressionwithLBFGS 和 
LogisticRegressionWithSGD， 两 种 实现 在 模型 和 学 习 策 略 上 是 一 样 的 ， 只 是 学 习 算 法 不 
样 ，LBFGS 训 练 速度 更 快 。 


除了 这 些 核心 的 算法 ， 还 有 一 些 辅助 处 理 的 模块 ， 参 见 表 8-2。 
表 8-2 ”其 他 常用 的 类 库 
其 他 常用 类 库 说 m 


mllib.stat 基础 统计 ， 常 用 的 有 statistics 类 ,计算 最 小 值 、 最 大 值 、 均 值 、 方 差 等 
mllib.feature 特征 处 理 ， 有 用 于 文本 处 理 的 HashingTF 类 和 IDF 类 ， 以 及 用 于 数值 归 一 化 的 Standardscaler 类 
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其 他 常用 类 库 说 明 
mllib.evaluation 算法 效果 衡量 ， 常 用 的 有 BinaryclassificationMetrics 类 、MulticlassMetrics 类 、 
RegressionMetrics 类 等 


m1ib.1inalg 基础 线性 代数 运算 支持 ， 支 持 奇异 值 分 解 、 降 维 等 
MLlib 库 具体 每 个 接口 的 参数 说 明 这 里 就 不 展开 叙述 了 ,读者 可 以 参考 官方 文档 。Spark 的 官 
方 文 档 建 设 得 比较 齐全 ， 同 时 配备 了 详细 的 示例 程序 ， 一 般 都 有 Python 、Java 和 Scala 的 版 本 。 


另外, 了解 当前 有 哪些 函数 ,一 个 便捷 的 办 法 就 是 在 spark-shell 下 输入 improt org.apache. 
spark.mllib.xxx. (查询 xxx 的 类 名 下 面 有 多 少 接口 ， 参 见 图 8-5 )， 然 后 按 TAB 键 。 


.spark.mll 


图 8-5” mllib.regression 接 口 示例 


8.2.3 ”附带 的 示例 程序 


Spark 安 装 包 里 面 附带 了 大 量 的 示例 数据 和 示例 程序 ， 这 些 文档 和 程序 是 学 习 使 用 Spark 最 有 
效 的 办 法 和 手段 。 这 里 以 Spark 1.4 为 例 ， 做 一 个 简单 介绍 


示例 数据 在 这 个 目录 : 


shifei@shifei-vm:~/spark-1.4/data/mllibs 1s 


als sample_isotonic regression data.txt 
gmm_data.txt sample lda data.txt 

kmeans, data.txt sample libsvm data.txt 

lr-data sample linear regression data.txt 

lr data.txt sample movielens data.txt 

pagerank data.txt sample multiclass classification data.txt 
ridge-data sample naive bayes data.txt 

sample binary classification data.txt sample svm data.txt 

sample fpgrowth.txt sample tree data.csv 


示例 代码 有 不 同 的 语言 版 本 : 


shifeiGshifei-vm:-/spark-1.4/examples/src/main$ 1s 
java python r resources scala 


本 地 安装 Spark 以 后 ， 运 行 示例 程序 十 分 便利 ， 具 体 安装 前 请 参考 前 面 的 章节 。 


比如 ，Spark 文 档 中 提供 了 一 个 线性 回归 的 示例 (代码 如 下 )。 我 们 简单 修改 了 数据 路 径 前 级 
以 后 ， 直 接 贴 到 spark-shell 的 命令 行 里 面 就 可 以 运行 了 。 
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import org.apache.spark.mllib.regression.LabeledPoint 

import org.apache.spark.mllib.regression.LinearRegressionModel 
import org.apache.spark.mllib.regression.LinearRegressionWithSGD 
import org.apache.spark.mllib.linalg.Vectors 


// 加 载 和 解析 数据 
val data = 
**sc.textFile("/home/shifei/spark-1.4/data/mllib/ridge-data/lpsa.data")** 
val parsedData - data.map ( line -»; 
val parts - line.split(',") 
LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' '). 
map(. .toDouble))) 


).cache() 

// 训练 模型 

val numIterations = 100 

val model - LinearRegressionWithSGD.train(parsedData, numIterations) 


// 使 用 模型 进行 预 估 ， 并 评估 模型 

val valuesAndPreds = parsedData.map { point -»; 
val prediction - model.predict(point.features) 
(point.label, prediction) 


} 


val MSE = valuesAndPreds.mapí(case(v, p) =>; math.pow((v - p), 2)}.mean() 
println ("training Mean Squared Error = " + MSE) 

图 8-6 是 在 spark-shell 粘 贴 代 码 以 后 的 运行 结果 ， 结 果 的 最 后 几 行 是 : 

Scala» println("training Mean Squared Error = " + MSE) 


training Mean Squared Error - 6.207129722351617 


Š shifeiGshifei-vm: -/spark-1.4/bin - Xshell 4 (Free for Home/School) Ee finem] 
File | Edit View Tools Window Help 
BNew ~ g9 ;S Reconnect | Ed ~ KO &m-m-$-4- SFA m00 m 
| bj © lvm-dev x 日 2vm-dev © 3vm-dev 


Connected to 192.168.56.201:22. SSH2 xterm 96x29 298  3sessions CAP NUM 


图 8-6 ”spark-shell 运 行 效果 
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均 方 误差 ( Mean Squared Error, MSE ) 是 评估 模型 的 常用 指标 ， 用 来 衡量 “平均 误差 "。 还 
有 一 些 常用 指标 ， 我 们 将 在 后 面 的 章节 中 进行 介绍 


大 部 分 例子 都 比较 简单 ， 接 下 来 我 们 将 基于 应 用 场景 编写 一 些 复杂 的 程序 。 


8.3 ”应 用 场景 搜索 广告 点 击 率 预 估 系 统 


点 击 率 预 估 是 指 系统 去 预 估 用 户 可 能 点 击 某 个 内 容 的 概率 ， 这 个 内 容 可 以 是 推荐 的 商品 , 也 
可 以 是 广告 。 预 估 基 本 方法 通常 基于 用 户 历史 行为 日 志 进 行 建 模 ,这 个 建 模 过 程 随 着 日 志 的 更 新 ， 
需要 重复 地 进行 。 互联 网 广告 是 互联 网 公司 的 主要 收入 来 源 之 一 , 广告 的 点 击 率 预 估 也 是 各 个 公 
司 的 核心 技术 。 接 下 来 就 让 我 们 在 Spark 系 统 上 ， 利用 机 器 学 习 的 方法 ， 来 开发 一 个 广告 点 击 率 
预 佑 系统 。 


8.3.1 应 用 场景 


当 用 户 在 搜索 引擎 中 输入 一 个 查询 词 , 搜索 引擎 除了 返回 相关 的 网 页 ,同时 还 会 返回 一 些 广 
告 (参见 图 8-7 )， 这 就 是 大 家 熟知 的 搜索 关键 词 广告 ， 谷 歌 的 Adwords 和 百度 的 凤梨 主要 采用 这 
一 形式 。 这 时 , 我 们 需要 预 估 针 对 某 个 用 户 的 查询 词 、 点 击 某 个 广告 的 概率 ,; ZAH (user_id) 
和 查询 串 ( query_id ) 是 输入 。 


ID due y— 
Baid BE EE PREN 


网 页 新 闻 WE 知 首 音乐 Bh 视频 地 图 文库 更 多 » 


百度 为 您 找到 相关 结果 约 1,400,00| 搜索 工具 

中 榴莲 -[1 号 店 ] 官 网 .全 网 1 折 起 ! 推广 链接 
热点 : 水 果 榴莲 HA 全球 美食 应 有 尽 有 | 全 场 1 折 起 
买 榴莲 ,上 [1 号 店 ]. 网 上 超市 "Duang 起 来 ! 开 心 一 夏 , 清 京 放 价 


榴莲 班 就 - 榴莲 王 - 金 枕 头 榴莲 - 怎么 挑 榴莲 - 水 果 榴 莲 
www.yhd.com 2015-08 


EEROR E. ARNE HNE 

榴莲 ,网 络 购物 第 一 站 . 百 万 商家 ,8 亿 优 质 特价 商品 . 足 不 出 户 ,轻松 一 站 式 购物 ! 贷 真 价 实 ,物美 价 
廉 ,海量 选择 ,时 尚 网 购 新 体验 .支付 安全 交易 ,交易 有 保障 ! 

www.taobao.com 2015-08 Vs - 评价 

E ux > ET 爆 款 底价 EtA] 

相关 搜索 : WEN | WEN | 榴莲 糖 | 榴莲 蛋糕 | msrERG | 更 多 人 

品种 : 榴莲 | 山竹 | 0E | 龙眼 | 其 它 | eer 

价格 : 0-49 | 50-89 | 90-199 | 200-299 | 300 以 上 | &Z? 

www.jd.com 2015-08 V3 - 评价 


图 8-7 ”百度 搜索 “榴莲 ”的 搜索 结果 
搜索 引擎 将 每 次 用 户 的 搜索 行为 定位 为 一 次 会 话 (session )， 每 天 大 量 的 会 话 被 记录 下 来 形 
成 了 搜索 日 志 ， 这 些 日 志 作 为 预 估 下 一 次 用 户 搜 索 的 主要 依据 使 用 。 
举 个 例子 。 某 一 次 会 话 中 , 用 户 A 输 入 查询 词 “ 芒 果 和 蛋糕 ”， 并 点 击 了 蛋糕 广告 商 B 的 广告 C。 
这 个 “芒果 和 蛋糕 ”就 是 一 个 query，query 经 过 搜索 引擎 的 query 分 析 模 块 处 理 以 后 ， 以 多 个 token 
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形式 存在 ， 被 处 理 成 token“ 芒 果 ” 和 token“ 和 蛋糕 ”。 同 时 A、B、C 的 相关 属性 也 会 被 记录 到 日 志 
中 。 这 些 日 志 被 用 作 依 据 来 建立 点 击 率 预 估 模 型 ， 这 样 的 好 处 在 于 : 
(D 当 出 现 一 个 新 的 query“ 榴 莲 和 蛋糕 ”时 ， 也 能 够 有 较 相 关 的 广告 展示 ; 
(2) 当 出 现 一 个 新 用 户 的 时 候 ， 也 输入 类 似 的 “芒果 和 蛋糕” 时， 和 广告 C 类 似 的 广告 有 较 高 的 
点 击 率 预 估 值 。 


8.3.2 ”逻辑 回归 

8.2 节 介绍 了 机 器 学 习 的 一 般 方法 ， 我 们 知道 机 器 学 习 方法 由 “模型 + 策略 + 算法 ”构成 ， 
这 里 我 们 使 用 同样 的 方法 来 解决 8.3.1 节 提 到 的 问题 。 

首先 来 讨论 一 下 这 里 的 模型 : 点 击 模型 。 


一 个 广告 展现 以 后 是 否 被 点 击 ， 只 有 两 种 情况 :“ 被 点 击 ” 和 “不 被 点 击 "。 可 以 这 样 描述 点 
击 模型 . 


口 用 模型 预测 值 为 1 来 表示 “被 点 击 ”; 
O 用 模型 预测 值 为 0 来 表示 “不 被 点 击 ”。 


所 以 ， 点 击 模型 是 一 个 二 元 分 类 器 : P(e), c= {0,1}。 
实际 上 ， 我 们 很 难 准确 地 预 估 一 定 会 点 击 ， 所 以 往往 预 估 被 点 击 的 概率 为 P，P 介 于 0 和 1 
之 间 。 点 击 率 预 估 模 型 就 是 用 来 预 佑 被 点 击 的 概率 ， 这 样 我 们 就 希望 模型 输出 一 个 介 于 0 和 1 之 
间 的 数 。 
Logistic 孙 数值 域 正好 满足 0~1 这 样 一 个 特征 ， 它 的 一 个 函数 图 形 如 图 8-8 所 示 。 
1 


图 8-8 ” Logistic 函数 图 


NS 


Logistic 函 数 公 式 如 下 : 


l æ 
(+e ) 1«e 


P(t) = logit" (t) = 
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它 是 logit 男 数 的 反胃 数 。logit 男 数 定义 如 下 : 


logit(p) = oa 二 
l- p 


于 是 ， 一 个 广告 “被 点 击 ” 的 概率 可 以 表示 为 : 


Peste- RR (x) 
]-e^* 
不 被 点 击 ” 的 概率 可 以 表示 为 : 


P 20| x) 21-logit (wx,) 


这 里 ow 是 模型 的 参数 ， 也 常 写成 向 量 的 形式 w'。x; 是 模型 的 特征 变量 ， 每 次 广告 展现 时 ， 特 

征 变量 动态 计算 出 来 , 是 已 知 的 。 这 里 模型 的 参数 是 未 知 的 , 我 们 可 以 从 日 志 里 面 记录 的 信息 去 

n 模型 的 参数 w。 我 们 希望 参数 的 取 值 能 够 使 模型 最 接近 观测 到 的 日 志 数据 ， 既 观测 事件 发 生 
的 概率 最 大 ， 这 个 方法 叫 极 大 似 然 估计 (maximun likelihood estimation )。 似 然 函 数 表示 为 : 


1 
l+e™™ 


极 大 似 然 佑 计 可 以 表示 为 似 然 函 数值 最 大 时 ， 变 量 w 的 取 值 ， 表 示 为 : 


pr (L7 p)? , 其 中 D; — 


argmax,, "p? *q-p,)™" (8.2) 


将 求 似 然 函数 最 大 值 ( 公式 8.2 ) 作为 目标 ， 这 就 是 机 器 学 习 三 要 素 里 面 的 策略 ( strategy )。 


极 大 似 然 估计 是 求 公 式 8.2 极 值 ， 一 般 我 们 把 问题 转化 成 求 对 数 似 然 函 数 。 因 为 log 函 数 是 一 
个 单调 递增 函数 ， 极 大 似 然 函数 就 转化 成 求 极 大 对 数 似 然 函数 的 问题 。 所 以 ,公式 8.2 转 化 成 对 
数 似 然 函数 : 


10)-51 [c logCP(c, 21| x;)) - (17 c;)log(1- P(c, 21| x,))] 
三 E P(c, -1|x) 
di uem] m 


= Zle (œ: x,)-log(1+ exp(o x, ))] 
我 们 定义 负 对 数 似 然 函数 : (e0)—L(e0) , MRKI RARR, ERRAK REA 

转化 成 求 最 小 极 值 的 问题 ， 负 对 数 似 然 函数 Mo) 也 就 是 8.1 节 提 到 的 损失 函数 (loss function ), 通常 

叫 对 数 似 然 损失 函数 (log-likelihood loss funciton )。 这 个 对 数 似 然 损失 函数 是 一 个 光滑 的 西 函 数 ， 


HH 
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因此 可 以 使 用 凸 优化 的 一 些 方法 来 求解 w 的 估计 值 。 
很 多 文献 上 直接 给 出 的 损失 函数 的 形式 : 
L(c)-log(l*exp(-ycox;)) 
这 里 使 用 了 一 些 技 巧 , 通过 重新 定义 一 个 新 函数 来 简化 公式 , 这 个 函数 定义 是 根据 c; 的 不 同 取 值 ， 
y 取 值 1 或 -1， 分 两 种 情况 : 
c, - lh, 1o) - -log(P(y =1|x)) 


= —log(1/ (1 + exp(-o - x))) 
= log(1 + exp(-o : x)) 


c, =0 时 , 1(@) =-log (PO =-1 |x) 
= -]og(exp(-o - x) / + exp(-o-x))) 
= log((1-- exp(-o : x))/ exp(-o -x)) 
= log(1-- exp(o - x)) 


这 个 公式 和 公式 8.3 是 等 价 的 。 
可 以 这 样 直观 地 理解 Logistic Loss: ?^Ay — 1 时 ，ow :x 越 大 ，Loss 越 小 ; 当 "= -1 时 ，om :x 越 小 ， 
Loss 越 小 。 


另外, 我们 常 说 逻辑 回归 模型 是 一 个 线性 模型 ,是 因为 当 拿 被 点 击 概率 除 以 不 被 点 击 概率 时 ， 
会 得 到 一 个 线性 的 式 子 : 


log(P(c,=1|x)/(-P(c,=1|x))= v: x 


被 点 击 概率 和 不 被 点 击 概率 的 比值 也 叫 作 odds, 所 以 很 多 文献 也 称 这 个 式 子 为 log odds ratios 
根据 logit 函 数 定义 ，log odds ratio 也 可 以 使 用 logit 函 数 表 示 为 : 


logit (P(c, -1|x))-o:x 


8.3.3 学 习 算 法 


上 一 节 提 到 ， 我 们 选择 学 习 的 模型 是 逻辑 回归 模型 ， 选 择 的 学 习 策 略 是 极 大 化 对 数 似 然 函 数 
的 值 ， 下 来 来 讨论 下 学 习 算法 ， 看 看 如 何 求 损失 函数 的 最 小 值 ， 既 负 对 数 似 然 函 数 的 极 小 值 。 梯 
度 下 降 ( gradient descent ) 是 求解 这 一 类 无 约束 最 优化 问题 的 一 种 常见 办 法 。 梯 度 下 降 是 一 种 迭代 
算法 ， 通 过 选取 合适 的 初 值 ， 不 断 迭 代 更 新 公式 8.3 中 的 w， 使 目标 函数 极 小 化 ， 直 到 收敛 。 负 梯 
度 是 是 函数 下 降 最 快 的 方向 ， 每 一 步 以 负 梯 度 方向 更 新 w 值 ， 从 而 达到 减 小 目标 函数 值 的 目的 。 


这 里 ,关键 的 过 程 就 是 每 一 步 求解 目标 函数 的 梯度 ， 为 了 加 快 收 笋 速度 ， 以 及 梯度 计算 存储 CI 
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和 计算 量 的 优化 ,实践 中 通常 使 用 优化 后 的 算法 L-BFGS ( Limited- po L-BFGS 是 一 
种 拟 牛 顿 法 ( Quasi-Newton method )， 通 过 存储 最 近 m 轮 的 迭代 信息 ， 然 后 再 通过 这 些 计算 梯度 
优化 了 存储 量 。 


另外， 根据 训练 集 构成 和 单 次 梯度 计算 使 用 的 样本 数 ， 又 可 以 如 表 8-3 这 样 划 分 。 


表 8-3 ”算法 对 比 


batch mini-batch Stochastic Online 
训练 集 固定 国定 国定 实时 更 新 
单 次 梯度 计算 整个 训练 集 训练 集 的 子 集 单个 样本 单个 样本 


当然 ， 我 们 使 用 Spark 的 好 处 就 在 于 不 用 考虑 这 些 数据 并 行 和 计算 并 行 的 问题 。 

MLlib 提 供 的 LogisticRegressionWwithSGD 就 是 随机 梯度 下 降 ( stochastic gradient descent ) 
的 一 种 实现 ，Logi sticRegressionWithLBFGS 是 拟 牛 顿 法 的 一 种 实现 。 两 个 算法 的 主要 实现 
分 别 在 runMiniBatchsGD 和 runLBEFGS 两 个 函数 中 ， 核 心 代码 如 下 : 


object GradientDescent extends Logging ( 


/** 
* SGD 算 法 
R 


def runMiniBatchSGD( 
data: RDD[(Double, Vector)], 
gradient: Gradient, 
updater: Updater, 
stepSize: Double, 
numIterations: Int, 
regParam: Double, 
miniBatchFraction: Double, 
initialWeights: Vector): (Vector, Array[Double]) - ( 


val stochasticLossHistory = new ArrayBuffer [Double] (numIterations) 
val numExamples - data.count() 


if (numExamples -- 0) ( 
logWarning("GradientDescent.runMiniBatchSGD returning initial 
weights,no data found") 
return (initialWeights, stochasticLossHistory.toArray) 


} 


if (numExamples * miniBatchFraction < 1) { 
logWarning("The miniBatchFraction is too small") 


} 


var weights = Vectors.dense (initialWeights.toArray) 
val n = weights.size 


var regVal = updater.compute( 
weights, Vectors.dense(new Array [Double] (weights.size)), 0, 1, 
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regParam). 2 


for (i «- 1 to numIterations) ( 
val bcWeights = data.context.broadcast (weights) 
// mini batches 方 法 ， 采 样 一 部 分 数据 集 ， 并 计算 对 应 的 梯度 和 
val (gradientSum, lossSum, miniBatchSize) = data.sample(false, 
miniBatchFraction, 42 + i) 
.treeAggregate((BDV.zeros[Double] (n), 0.0, 0D))( 
seqOp - (c, v) -»; ( 
// c €T EVI EX (grad, loss, count), vE €T A83 X (label, 
// features) 
val 1 = gradient.compute(v. 2, v. 1, bcWeights.value, 
Vectors.fromBreeze(c. 1)) 
(C..:1,-0..:2. 1, 0.8 1) 
) 
combOp 2 (C61, .c2) 2»; (1 
// c 变 量 保存 的 内 容 是 (grad,， loss, count) 
(lsat Hs 2 ly, GL - Q3.2, 01.2.:3- 22.3) 


} 


if (miniBatchSize >; 0) { 
stochasticLossHistory.append(lossSum / miniBatchSize + regVal) 
val update - updater.compute( 
weights, Vectors.fromBreeze(gradientSum / miniBatchSize.toDouble), 
stepSize, i, regParam) 
weights - update. 1 
regVal - update. 2 
j else ( 
logWarning(s"Iteration ($i/$numIterations). The size of sampled batch 
is zero") 


logInfo("GradientDescent.runMiniBatchSGD finished. Last 10 stochastic losses 
$s".format(stochasticLossHistory.takeRight(10).mkString(", "))) 


(weights, stochasticLossHistory.toArray) 


object LBFGS extends Logging ( 


/** 
* LBFGS 算 法 
6 


def runLBFGS( 
data: RDD[(Double, Vector)], 
gradient: Gradient, 
updater: Updater, 
numCorrections: Int, 
convergenceTol: Double, 
maxNumIterations: Int, 
regParam: Double, 
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initialWeights: Vector): (Vector, Array[Double]) = ( 
val lossHistory = new ArrayBuffer [Double] (maxNumIterations) 
val numExamples - data.count() 


val costFun - 
new CostFun(data, gradient, updater, regParam, numExamples) 

// 基于 Breeze 库 的 实现 

val lbfgs = new BreezeLBFGS[BDV[Double]] (maxNumIterations, numCorrections, 
convergenceTol) 


val states - 
lbfgs.iterations (new CachedDiffFunction(costPun), 
initialWeights.toBreeze.toDenseVector) 


var state - states.next() 
while(states.hasNext) ( 
lossHistory.append(state.value) 
state - states.next() 


} 
lossHistory.append(state.value) 
val weights - Vectors.fromBreeze(state.x) 


logInfo("LBFGS.runLBFGS finished. Last 10 losses $s".format( 
lossHistory.takeRight(10).mkString(", "))) 


(weights, lossHistory.toArray) 
j 


可 以 看 到 ，LogisticRegressionwithsGcD 的 实现 关键 是 利用 broadqcast 函 数 来 广播 每 一 
轮 的 新 权重 ( weight )， 利 用 treeaggregate 国 数 来 收集 每 一 份 梯度 和 损失 C loss ); 
LogisticRegressionWithLBFGS 中 CostFun 的 实现 ， 人 
treeAggregate 来 工作 。 可 以 看 到 ， 两 个 也 数 都 会 输出 最 近 10 次 迭代 的 loss 值 ， 这 个 有 利于 我 
们 判断 是 否 收敛 。 


8.3.4 ”模型 评估 


出 于 模型 调 优 、 效 果 监 控 等 目的 , 我们 需要 对 模型 训练 好 的 模型 进行 评估 。 在 点 击 率 预 估 这 
个 场景 中 ， 我 们 通常 从 这 几 个 指标 进行 评估 。 


1. logLoss 


logloss 实 际 上 就 是 8.3.3 节 提 到 的 对 数 似 然 损失 函数 的 值 。 对 数 似 然 损 失衡 量 了 点 击 事件 在 
当前 观测 数据 (搜索 日 志 ) 中 发 生 的 可 能 性 : 对 数 似 然 越 小 ， 发 生 的 可 能 性 越 大 , 模型 的 预 估 性 
能 越 好 。 由 于 广告 的 点 击 率 低 , 样本 负 例 远 远 多 于 正 例 ，1og1loss 的 值 一 般 较 小 。 在 离线 评估 过 
程 中 ， 我 们 常常 比较 变化 的 比例 ， 而 不 是 绝对 值 。 
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在 本 章 案例 中 我 们 通过 上 一 节 代 码 中 的 1ogInfo 输 出 最 近 10 次 损失 作为 参考 。 

2. AUC 

信息 检索 CIR) 领域 中 常用 的 是 召回 率 (recall ) MERK ( precision )。 但 有 时 候 ， 这 两 个 
指标 不 太 好 用 。 

举 个 例子 ， 测 试 集合 中 有 A 类 样本 90 个 ，B 类 样本 10 个 。 分 类 器 C1 把 所 有 的 测试 样本 都 分 成 
了 A 类 , 分 类 器 C2 把 A 类 的 90 个 样本 分 对 了 70 个 ，B 类 的 10 个 样本 分 对 了 5 个 。 那么 C1 的 准确 率 为 
90%，C2 的 准确 率 为 75%。 但 是 , 显然 C2 更 有 用 些 。 正 负 例 分 布 不 平衡 时 , AUC (Area Under roc 
Curve ) 这 时 候 就 更 有 用 了 。 顾 名 思 义 ，AUC 的 值 就 是 处 于 ROC 曲 线 下 方 的 那 部 分 面积 的 大 小 。 
先 来 了 解 下 ROC (Receiver Operating Characteristic )，ROC 指 标 主要 分 析 的 是 一 个 画 在 二 维 平面 
上 的 曲线 一 一 ROC 曲 线 。 二 维 平面 的 横 坐 标 是 伪 阳 率 FPR (False Positive Rate )， 纵 坐标 是 正 阳 率 
TPR ( True Positive Rate )。 对 于 某 个 分 类 器 而 言 ， 我 们 在 测试 集合 上 的 测试 结果 得 到 一 个 TPR 和 
FPR 点 对 ， 这 样 这 个 分 类 器 就 映射 成 ROC 平 面 上 的 一 个 点 。 然 后 ,我 们 调整 这 个 分 类 器 分 类 时 使 
用 的 阅 值 为 从 0 到 1 变化 ， 就 可 以 得 到 一 个 经 过 (0, 0)、(1, 1) 的 曲线 ， 所 以 ROC 曲 线 反 应 了 正 负 例 
判定 阅 值 变化 时 ， 正 阳 率 (True positive rate ) 和 伪 阳 率 (False positive rate ) 的 变化 情况 ， 参 见 
图 8-9。 


—— NetChop C-term 3.0 
-一 TAP + Protea$MM-i 
Protea SMM-i 


0.4 0.6 0.8 l 
伪 阳 率 


图 8-9 ” ROC 曲线 示例 (来自 维基 百科 ， 男 见 彩 插图 8-9 ) 


AUC 最 直接 的 含义 是 ROC 曲 线 下 的 面积 。 使 用 随机 分 类 器 时 AUC 为 0.5， 当 所 有 正 例 样本 的 
预 估 值 都 大 于 所 有 人 负 例 样本 时 AUC 的 值 为 1， 所 以 AUC 值 是 越 大 越 好 。AUC 反 映 了 正 负 例 样本 预 
估 值 排序 的 正确 性 ， 同 时 不 受 正 负 例 分 布 不 平衡 的 影响 。 值 得 一 提 的 是 ， 当 训练 样本 不 充分 ， 特 
征 空间 较 小 时 ， 正 负 例 样本 无 法 相互 区 分 ， 在 这 种 情况 下 AUC 的 上 界 不 可 能 为 1。 与 1ogloss 类 
似 , 我 们 通常 比较 不 同 模型 变化 的 比例 ， 而 不 是 绝对 值 。 在 实践 过 程 中 我 们 发 现 ，AUC 提 升幅 度 
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大 于 0.3% 时 ， 效 果 一 般 都 会 有 改善 。AUC 的 计算 有 很 多 优化 的 版 本 ， 一 个 简单 算法 是 对 样本 按 
预 估 值 倒序 排序 后 , 遍历 样本 计算 正 阳 率 和 伪 阳 率 得 到 ROC 点 , 同时 累积 两 个 相 邻 的 ROC 点 间 构 
成 的 梯形 面积 即 可 。 

在 本 章 的 例子 中 ， 我 们 通过 MLlib 中 的 BinaryCclassificationMetrics 类 来 计算 该 指标 。 

3. MAE 

Mean Absolute Error (平均 绝对 误差 ) 也 是 模型 评估 的 常用 指标 。 点 击 率 是 一 个 统计 值 ， 通 
常 需要 对 每 个 维度 聚合 以 后 来 计算 实际 点 击 率 ， 然 后 再 计算 MAE。 为 了 简单 起 见 ， 这 个 场景 中 
我 们 定义 如 下 : 


1 n 1 Z 
MAE =— Y`] Predict, — Lable, =—Y |e, | 
n 


i=l i=l 


这 里 Predict 表 示 模 型 预测 值 ， 表 示 点 击 率 ，Lable 表 示 实 际 是 否 点 击 (0 或 者 1 )。 
在 本 章 的 例子 中 ， 我 们 通过 MLlib 中 的 RegressionMetrics 类 来 计算 该 指标 。 


8.3.5 数据 准备 


腾讯 SOSO 是 腾讯 公司 自主 研发 的 搜索 引擎 ， 于 2009 年 9 月 上 线 。2012KDD CUP 比 赛 使 用 的 
数据 就 是 腾讯 SOSO 提 供 的 数据 , 具体 参见 : https://www.kddcup2012.org/c/kddcup2012-track2/data。 


数据 包括 : 搜索 会 话 日 志文 件 training.txt 、 查 询 词 queryid tokensid.txt 、 用 户 的 属性 
userid_profile.txt。 当 然 ， 出 于 对 隐私 的 考虑 ， 涉 及 用 户 和 广告 主 的 相关 属性 都 做 了 匿名 化 处 理 。 

针对 training.txt， 本 章 示例 代码 利用 的 几 个 重要 字段 如 下 。 

l.Click: 用 户 点 击 AdID 的 次 数 。 

2. Impression: AdqID 在 oueryID 中 被 展示 的 次 数 。 

4. AGID: 展示 的 广告 对 应 的 广告 ID 。 

5.AdvertiserlD: 广告 ID 对 应 的 广告 主 ID。 

8. QueryID: 搜索 引擎 对 query 的 编号 。 我 们 可 以 将 这 个 编号 作为 索引 ， 从 数据 文件 queryid_ 

tokensid.txt 查 找到 这 个 query 拆 分 以 后 对 应 的 token 列 表 。 

12.UserID: 用 户 编号 我 们 可 以 使 用 这 个 编号 作为 索引 ,从 数据 文件 'useriq_profile.txt' 
查找 到 每 个 user_ig 对 应 的 性 别 和 年 龄 信息 。 

queryid_tokensid.txt 描 述 了 每 个 queryigd 对 应 的 tokensid。userid_profile.txt 描 述 了 每 个 用 户 
ID 对 应 的 性 别 和 年 龄 信息 。 其 中 , '11' 表 示 男 性 , '2' 表 示 女 性 , '0' 表 示 未 知 。'11' 表 示 (0, 12] 岁 ， 
'2' 表 示 (12, 18] 岁 ，'3' 表 示 (18, 24] 岁 ，'4' 表 示 (24, 30] 岁 ，'5' 表 示 (30, 40] 岁 ，'6' 表 示 40 岁 
以 上 。 这 就 是 我 们 在 前 面 说 的 离散 值 特征 。 

在 上 一 节 中 , 我 们 提 到 逻辑 回归 是 一 个 线性 模型 ,模型 中 某 一 维 的 特征 不 会 和 其 他 特征 进行 
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组 合作 用 ， 所 以 我 们 需要 对 特征 进行 交叉 。 比 如 ， 将 广告 ID CA) 和 用 户 性 别 〈 女 ) 进行 交叉 形 
成 一 维特 征 : 表示 女性 用 户 对 于 广告 A 这 样 一 个 维度 的 特征 。 当 然 这 样 的 组 合 很 多 ， 实 际 组 合 以 
后 的 空间 可 能 高 达 几 亿 维 ， 然 后 我 们 还 需要 处 理 成 在 8.2.1 节 中 提 到 稀 琉 向 量 的 形式 。 为 此 , 我 们 
还 需要 对 每 种 组 合 编 一 个 号 ， 作 为 稀 玻 向 量 的 下 标 。 


下 面 通过 一 个 简单 的 例子 来 说 明 特 征 交 叉 。 我 们 根据 training.txt queryid tokensid.txt 、 
userid profile.txt 的 格式 构造 了 3 个 测试 文件 ， 分 别 是 : 


rootGm0:-4 cat training test.txt 

o: Tom 194 

0212 92 

111.293 

格式 是 : 点 击 ”曝光 查询 词 ID (QueryID) 用 户 ID 其 他 属性 


root@m0:~# cat queryid tokensid.txt 
1 234|445 

2 4441551675 

格式 是 : queryid tokenl | token2 


rootGm0:-4 cat userid profiel test.txt 
T 13 

2.72. 3b 

格式 是 : userid gender age 


进行 特征 交叉 组 合 以 后 ，training_testtxt 就 对 应 变 成 以 下 形式 : 


01161211 171 19 118 1201 
02215131614111 

a T 7 7.44 4310/1 13-1 11 1. 15-4. 9.3712. 1:8. T 
格式 是 : Ak 上 曝光 特征 编号 1 特征 编号 1 特征 编号 1 


第 一 行 第 三 列 的 16 表 示 第 16 维 特征 不 为 空 ， 这 里 使 用 的 特征 都 是 8.1.4 节 中 提 到 的 二 值 特 征 。 


除了 对 特征 进行 交叉 、 编 号 , 我 们 还 需要 对 训练 样本 进行 异常 值 处 理 ， 比 如 点 击 大 于 曝光 的 
样本 、 曝 光 为 0 的 样本 等 ， 在 后 续 的 代码 中 你 可 以 看 到 这 些 逻 辑 。 


T 


8.3.6 ”模型 训练 


现在 ,我 们 将 实现 上 一 节 提 到 的 特征 交叉 等 逻辑 代码 ， 并 人 处理 成 MLlib 所 需要 的 格式 ， 进 行 
模型 训练 ， 再 结合 8.3.4 节 提 到 的 指标 对 模型 进行 评估 。 我 们 直接 看 LogisticRegression- 
Example.scala 的 源 代码 : 

/* 

LogisticRegressionExample.scala 


author: linshifei  «linshifei3650gmail.com- 
version: 2014.12.24 


代码 变量 命名 遵循 作者 的 个 人 习惯 
由 于 数据 量 比较 大 ， 根 据 读 者 的 集群 情况 ， 代 码 运 行 可 能 需要 修改 的 默认 配置 有 : 
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Sspark.local.dir 
Spark.executor.memory 
Sspark.driver.maxResultSize 
Spark.akka.frameSize 
Spark.default.parallelism 
spark.network.timeout 
Spark.akka.timeout 
K 
import java.util.Date 
import java.text.SimpleDateFormat 
import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext. . 
import org.apache.spark.SparkConf 
import org.apache.spark.mllib.classification.(LogisticRegressionWithSGD, 
LogisticRegressionWithLBFGS,LogisticRegressionModel) 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.evaluation.(RegressionMetrics, 
BinaryClassificationMetrics) 
import org.apache.spark.mllib.optimization.(SquaredL2Updater, L1Updater) 
import org.apache.spark.rdd.RDD 
import org.apache.spark.mllib.util.MLUtils 


object LogisticRegressionExample ( 
def main(args: Array[String]) ( 


val conf - new SparkConf() 
val sc - new SparkContext (conf) 


var num iterations - 50 

var train algorithm - "SGD" 

var train file path - "hdfs:///data/track2 datasets files for competitors/" 
var training file name = train file path + "traininglkw.txt" 

var clear threshold test - false 

var reg type = "L1" 


//| 参数 解析 可 以 使 用 scopt .OptionParser 
if (args.length >= 1)( 

train file path = args(0) 
j 


if (args.length >= 2)( 
training_file_name = train_file_path + args(1) 


} 


if(args.length >= 3)( 
num iterations - args(2).toInt 


} 


if(args.length >= 4)( 
train algorithm - args(3) 
j 


if(args.length »- 5)( 
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if(args(4) -- "L2")( 
reg type - "L2" 

} 
} 
println("using train file path :" + train file path) 
println("using training data :" + training file name) 
println("num iterations :" + num iterations.toString()) 
printlin("train algorithm :" + train algorithm) 
println("reg type :" + reg type) 


// 使 用 kddcup2012 数 据 集 ， 参 见 : httpz//www.kddcup2012.org/c/kddcup2012-track2 

val training data raw = sc.textFile(training file name) 

val qid = sc.textFile(train file path + "queryid tokensid.txt") 

val uid = sc.textFile(train file path + "userid profile.txt") 

val keywords = sc.textFile(train file path + 

"purchasedkeywordid tokensid.txt") 

val title = sc.textFile(train file path + "titleid tokensid.txt") 

val description = sc.textFile(train file path + "descriptionid tokensid.txt") 


// keywords AX: id xly 
// 转换 为 id 为 Key， 其 他 为 value (array) 
val m keywords = keywords.map(line -» ( 
val arr-line.split('Nt'); 
(arr(0), arr(1).split('l')) 
j).reduceByKey((al, a2) => al) .cache() 


// title 格 式 是 : id xly 
// 转换 为 1dq 为 key， 其 他 为 value (array) 
val m title = title.map(line -» ( 

val arr-line.split('Nt'); 

(arr(0), arr(1).split('l|')) 
j).reduceByKey((al, a2) => al).cache() 


// descriptiond&A €: id xly 
// 转换 为 jd 为 Key， 其 他 为 value (array) 
val m description = description.map(line => { 
val arr-line.split('Nt'); 
(arr(0), arr(1).split('l')) 
)).reduceByKey((al1, a2) => al).cache() 


// uid 格 式 是 : uid 1 2 3 
// 转换 为 aid 为 key， 其 他 为 value (array) 
val m uid = uid.map(line => ( 
val uid array-line.split('Nt'); 
(uid array(0), uid array.drop(1)) 
)).reduceByKey((al, a2) => al) 


// qid 格 式 是 : qid xly 
// 转换 为 qid 为 Key， 其 他 为 value (array) 
val m did = qid.map (line => { 

Val dárresline.split('VXt'); 

(ari (0j; -arr (rj splitt rey] 
)).reduceByKey((al, a2) => a1) 
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// 给 每 个 session 加 一 个 编号 
val training data raw idx = training data raw.zipWithIndex().map(x => 
(String.valueOf(x. 2), x. 1)) 


/* 

展开 training_data_raw， 并 保留 原 行 数据 
1. Click: 点 击 数 

Impression: 展现 数 

AdID: 广告 ID 
AdvertiserID: 广告 主 ID 
QueryID: 查询 词 ID 

9. KeywordID: 关键 词 ID 

10. TitleID: 广告 标题 ID 

11. DescriptionID: 广告 描述 ID 
12. UserID: 用 户 ID 


oue N 


主要 过 程 是 : line => (("type",i,p. 2(1)), instance) 
JT, instance(7)X€query id, instance(11)ğuser idee 
join 默认 两 边 都 有 的 记录 

Rf 


val train instance expand = training data raw idx.map(l => { 
val arr = 1l. 2.sgplit('Nt') 
// instance 只 保留 : index, Click, Impression, UserID, AdID, AdvertiserID, 
// query, title, description, Position 
(arr(8), Array(1. 1l,arr(0),arr(1),arr(11),arr(3),arr(4),arr(7),arr(9), 
arr(10),arr(6))) 
}) .join(m keywords).map(a => (a. 2. 1(7),a.. 2) // value : instance, 
// keywords token 
).join(m title).map(a -» (a. 2.. 1. 1(8),(a.. 2. 1. 1,8. 2.. 1. 2,a.. 2.. 2)) 
// value : instance, 
// keywords. token, 
// title token 


).join(m description).map(a -» 
(a. 2. .1.. 1(6), (a. 2. 1. 1,8. 2. Li 2,a.. 2. 1. 3,a.. 2.. 2)) 
// value : instance, 
// keywords token, title token, description token 
).join(m qid).map(a -» (a. 2. 1.. 1(3), 
(ds 24-1. Aya a vb 20052. duae. ul an 2.5.27): 
// value : instance, keywords token, title token, description token, qid arr 
).join(m uid).map(a -» 
(a. 22 20. 5d 724-1. 7278.72: 7 34852651. 4,2: 52. 071.7553. 2.2) 
// value : instance, keywords token, title token, description token, qid arr, 
uid arr 
).flatMap( p => ( // pfjj&AJ&1:instance, 2:keywords token, 3:title token, 


// 4:description token, 5:qid arr, 6:uid arr 
var array. size = p. 6.length // AdvertiserIDfeuser ZX 3 
array size = array size + p. 5.length // AdIDfequery token£ X, 
// 每 次 请 求 AdaID 只 有 一 个 
array size = array size + p. 5.length  // AdvertiserID£Áequery. tokenZX 3t 
array size = array size + 3 // title, keyword, descriptionX f &2query 
val a = new Array[((String,String, String), Array[String])] (array. size) 


D 
e 


var n 
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var token hit count = 0 


token hit count = checkTokenMatch(p. 2,p.. 5) 
a(n) = (("1","1",token hit count.toString()), p. 1) // 标识 第 一 类 特征 : title, 
//| keyword, descriptionX 4 f &query 


token hit count = checkTokenMatch(p. 3,p.. 5) 
a(n) - (("1","2",token hit count.toString()), p.. 1) 
n += 1 


token hit count = checkTokenMatch(p._4,p._5) 


a(n) s (("1","3",token hit count.toString()), p.. 1) 

a i 

for (i «- p... 5)(t // K&?Ftquery token 
a(n) = (("2",i,p. 1(4)), p. 1) // 标识 第 二 类 AdID 和 query_token 交 又 ， 

// p. 1 是 instance 

n += 1 

} 

for (i <- p. 6)( // 展开 user 
a(n) = (("3",i,p._1(5)), p._1) // 标识 AdvertiserID 和 user 交 又 
n += 1 

} 

for (i <- p._5){ // 展开 query_token 
a(n) = (("4",i,p. 1(5)), p. 1) // 标识 AdvertiserID 和 query_token 交 又 
n += 1 

} 

a 

}) .cache() 


//train instance expandX (feature list,instance), 
// 比 如 : (("type",i,p. 2(1)),p. 1) 需要 去 重 ， 

// 本 地 加 编号 nn 

var n- 0 


val feature index - train instance expand.reduceByKey((al, a2) -» 
al).map(... 1).collect().map(a => ( 
n-4-1 
(a, n) 


) 


// collect 以 后 是 数组 arrray， 重 新 回 到 RDD 
val feature index rdd = sc.parallelize(feature index) 


// 以 每 个 instance 的 feature 列 表 作 为 key 进 行 join, join 得 到 每 一 种 instance 需 要 的 feature 
// 编 号 : ((feature list) ,(instance,feature id)) 


/ /然后 反 转 : 以 每 一 个 instance 为 key， 这 里 需要 倒 过 来 ， 即 对 同一 个 组 合 grouPBYKey go 


val train instance - train instance expand.join(feature index rdd).map(a -» 
t(as -2. TmkStrzing('NC"), a.-2.—-2)J 
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).groupByKey().map( a => ( 


val arr = a. 1l.split('Vt') // mkstring 以 后 是 字符 串 
var sg = "" 
for(n «- a. 2) { // groupByKey 以 后 ， 同 一 个 类 型 的 特征 组 合 


// 所 有 的 编号 在 a._2 中 
S - s+ "NV" e no "tI" // 这 里 使 用 稀 路 矩阵 ，1 表 示 这 一 维 不 为 空 


arr(1) + "Nt" + arr(2) + S 


3) 


// 这 里 需要 过 滤 “ 点 击 大 于 曝光 ”和 " 曝光 大 于 0” 的 两 种 情况 

// zipWithIndex 的 作用 是 将 每 个 元 素 和 其 所 在 的 下 标 组 成 一 个 pair 

val train instance filter = 
train instance.map( .split("Nt").zipWithIndex).filter(arrWithIdx => 
arrWithIdx(0). 1.toInt <= arrWithIdx(1). 1.toInt && arrWithIdx(1).. 1l.toInt 
> 0 

) 


// 最 大 的 编号 
val maxSize = n + 1 


val train instance flat = train instance filter.flatMap { arrWithIdx => { 


9. 


val feature index arr = arrWithIdx.filter(i => i. 2» 1 && i. 2 $ 2 == 


0).map(. . 1.toInt) 
val feature value arr = arrWithIdx.filter(i => i. 2» 1 && i. 2 $ 2 == 
1).map(. . 1.toDouble) 


// 点 击 数 ， 正 例 数 

val click count = arrWithIdx(0). 1.toInt 

// 上 曝光 数 ， 负 例 数 

val imp count = arrWithIdx(1)._1.toInt 

var outs = new Array[(LabeledPoint)](imp count) 


for (i «- click count until imp count) 
outs(i-click count) = LabeledPoint(0, Vectors.sparse(maxSize, 
feature index arr, feature value arr)) 


for (i «- 0 until click count ) 
outs(i-«imp count-click count) = LabeledPoint(1, 
Vectors.sparse(maxSize, feature index arr, feature value arr)) 
outs 


}} 


val examples = train instance flat.randomSplit(Array(0.99, 0.01), seed = 11L) 
val training set - examples(0).cache() 
val test set - examples(1).cache() 


val num training - training set.count() 
val num test - test set.count() 
println(s"Training: $num training, Testing: $num test.") 


val updater - reg type match ( 
case "L1" => new L1Updater() 
case "L2" -» new SquaredL2Updater() 
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val model = train algorithm match ( 
case "LBFGS" => 
val algorithm - new LogisticRegressionWithLBFGS() 
algorithm.optimizer 
.SsetNumIterations (num iterations) 
.SetUpdater (updater) 
algorithm.run(training set) 
case "SGD" => 
val algorithm - new LogisticRegressionWithSGD() 
algorithm.optimizer 
.SetNumIterations (num iterations) 
.SetUpdater (updater) 
algorithm.run(training set) 


model.clearThreshold() 


val weight count - model.weights.size 
println(s"NnModel weights count :$(weight count)") 


val prediction - model.predict(test set.map( .features)) 

val score and labels = prediction.zip(test set.map( .label)) 
val metrics - new BinaryClassificationMetrics(score and labels) 
printlin(s"MnTest areaUnderROC = $tmetrics.areaUnderROC()).") 


val metrics2 - new RegressionMetrics(score and labels) 
println(s"MnTest meanAbsoluteError = $tmetrics2.meanAbsoluteError)]") 


val date format = new SimpleDateFormat ("yyyyMMddHHmm") 


val model path = train file path + "model " + date format.format (new Date()) 
model.save(sc, model path) 
sc.stop() 
} 
def checkTokenMatch(token1: Array[String],token2: Array[String]) : Int = ( 
if(tokenl.length == || token2.length --0)( 
return 0 
} 


var hit - 0 
for( item1 <- tokenl)( 
for(item2 «- token2)( 
if(iteml1 == item2)( 
hit += 1 


} 
return hit 
} 
} 


注意 , 这 里 的 RDD 调 用 cache O 的 代码 , 应 该 根据 自己 的 集群 内 存 情况 来 调整 , 否则 会 出 错 ， am 
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内 存 比较 小 的 可 以 使 用 persist (StorageLevel .MEMORY_AND_DISK) 来 替换 , 当 训 | 练 数 据 集合 
比较 大 ， 资 源 有 限 的 时 候 ， 我 们 也 可 以 对 训练 集合 进行 一 定 比 例 的 采样 。 


示例 用 到 的 代码 目录 如 下 : 


shifei@shifei-vm:~/project/spark_book/LogisticRegressionExamples 1s 
project simple.sbt src target 


shifeiG8shifei-vm:-/project/spark book/LogisticRegressionExample/src/main/scala$ 1s 
LogisticRegressionExample.scala 


这 里 使 用 sbt 构 建 jar 包 ，spt 的 用 法 可 以 参考 前 面 的 章节 。 


shifeiG8shifei-vm:-/project/spark book/LogisticRegressionExample$ cat simple.sbt 
name :- "LogisticRegressionExampleProject" 

version :- "1.8" 

ScalaVersion :- "2.10.4" 

val revision = "1.4.0" // Spark 版 本 号 

libraryDependencies += "org.apache.spark" $$ "spark-core" % revision 
libraryDependencies += "org.apache.spark" $ "spark-mllib 2.10" $ revision 


输入 sbt package 开 始 打包 构建 ， spt 会 根据 simple. spt 描述 的 版 本 下 载 所 需 要 的 库 ， 


$ 


一 次 会 比较 慢 。 


ie 


shifei@shifei-vm:~/project/spark_book/LogisticRegressionExample$ sbt package 
info] Set current project to LogisticRegressionExampleProject (in build 
file:/home/shifei/project/spark book/LogisticRegressionExample/) 

info] Compiling 1 Scala source to 

/home/shifei/project/spark book/LogisticRegressionExample/target/scala-2.10/ 
classes... 

info] Packaging 
/home/shifei/project/spark book/LogisticRegressionExample/target/scala-2.10/ 
logisticregressionexampleproject 2.10-1.8.jar ... 

info] Done packaging. 

Success] Total time: 20 s, completed Dec 25, 2015 10:55:28 PM 


然后 通过 以 下 命令 提交 任务 : 


/usr/local/myhadoop/spark/bin/spark-submit \ 

--deploy-mode cluster \ 

--driver-cores 8 \ 

--driver-memory 20G \ 

--total-executor-cores 40 \ 

--class LogisticRegressionExample \ 

hdfs:///data/logisticregressionexampleproject 2.10-1.8.jar traininglkw.txt 100 
LBFGS 


主意 , 代码 中 提 到 集群 的 参数 一 定 要 提前 确认 是 否 已 经 修改 , 没有 修改 也 可 以 在 提交 命令 中 
比如 : --conf "spark.kryoserializer.buffer.max-1g" 。 


提交 以 后 可 以 通过 Spark 提 供 的 UI 界面 查看 任务 进度 ， 界 面 还 会 提供 整个 集群 的 资源 信息 ， 


比如 : 
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**URL:** spark://ml.hadoop:7077 

**REST URL:** spark://ml.hadoop:6066 | (cluster mode). 
**Workers:** 5 

**Cores:** 40 Total, 33 Used 

**Memory:** 142.5 GB Total, 120.0 GB Used 
**Applications:** 1 Running, 6 Completed 

**Drivers:** 1 Running, 7 Completed 

**Status:** ALIVE 


表 8-4 所 示 是 一 个 完成 训练 的 示例 。 


表 8-4 Spark 任务 UI 示例 


应 用 ID 核 数 每 个 节点 内 存 用 户 名 状态 运行 时 长 
(Application ID) (Core) (Memory per Node) (User) (State) (Duration) 
app-20151202193002-0003 32 24.0 GB hadoop FINISHED 1.5 分 钟 


二 
EI 


意 ， 训 练 的 模型 在 实际 使 用 的 时 候 还 需要 注意 儿 个 问题 : 

口 预 估 使 用 的 特征 编号 要 对 齐 训练 这 里 的 特征 编号 ; 

口 如 果 训 练 的 模型 用 于 排序 过 程 的 点 击 率 预 估 ， 需 要 调用 moqel . clearThreshold()， 保 
证 模型 输出 是 小 数值 ; 

口 模型 校 验 、 模 型 传输 等 过 程 可 能 出 错 。 


8.3.7 ”模型 调 优 
除了 数据 准备 阶段 比较 费时 , 模型 调 优 也 是 比较 耗 时 的 一 个 环节 。 调 优 主要 集中 于 特征 选择 
和 训练 参数 选择 ， 实 际 应 用 中 往往 要 在 效率 和 效果 中 间 寻 找平 衡 。 


本 章 的 示例 代码 ， 在 腾讯 企业 云 的 “ 攻 城 之 地 ”活动 所 提供 的 机 带 集 群 上 ,做 了 几 组 参数 配 
置 的 模型 对 比 ， 参 见 表 8-5。 


表 8-5 ”模型 对 比 


模型 算法 样本 量 特征 类 型 特征 维度 最 大 迭代 LOSS MAE AUC 
1 SGD 1000 w 6 9 887 394 100 0.2024 0.1343 0.5911 
2 LBFGS 1000 w 6 9 887 394 100 0.1551 0.0720 0.7606 
3 LBFGS 1000 w 7 9 887 397 100 0.1597 0.0737 0.7634 
4 LBFGS 2000 w 6 15 985 071 100 0.1668 0.0746 0.7571 
5 LBFGS 2000 w 7 15 985 074 100 0.1652 0.0738 0.7644 


可 以 看 到 ，LOSS 、MAE 和 AUC 在 模型 效果 衡量 上 基本 是 相关 的 : AUC 越 高 ，LOSS 和 MAE 
越 小 ,比如 : 对 比 模型 1 和 模型 2。 其 中 ，SGD 算 法 收敛 很 慢 ， 而 LBFGS 算 法 基本 在 50 次 迭代 左右 
就 接近 收敛 。SGD 算 法 在 100 次 迭代 以 后 LOSS 还 是 很 大 ,尝试 把 SGD 最 大 迭代 次 数 调 到 2000, 耗 
时 100 多 分 钟 ， 算 法 还 是 没有 收敛 ， 基 本 上 不 可 用 。 我 们 也 可 以 调整 两 次 迭代 损失 函数 变化 的 容 
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ZJE (convergenceTol ) 来 改变 训练 时 间 。convergenceTol 默 认 是 0.0001， 从 日 志 看 ， 都 没有 达到 
convergenceTol 的 闷 值 ， 一 般 是 最 大 迭代 次 数 在 控制 训练 时 间 ，LBFGS 算 法 的 最 大 迭代 次 数 设 置 
为 100， 和 迭代 最 后 几 次 的 LOSS 减 小 就 很 小 了 ， 所 以 这 里 都 设置 100 进 行 效果 对 比 。 

当 数据 集 变化 时 ，AUC 指 标 也 会 变化 。 这 里 的 简单 做 法 是 , 在 同一 个 数据 集 上 取 多 少 次 计算 
的 平均 值 。 很 明显 可 以 看 出 , 增加 有 效 的 特征 以 后 , AUC 指 标 有 所 提升 , 模型 3 对 比 模型 2 有 0.37% 
的 提升 ,模型 5 对 比 模型 4 有 0.96% 的 提升 ,这 里 添加 的 特征 是 展现 位 置 等 特征 ,事实 上 ,kddcup2012 
数据 集 的 数据 还 可 以 添加 的 特征 有 很 多 ， 这 里 的 实验 只 使 用 了 7 类 特征 。 值 得 注意 的 是 ， 不 同 场 
景 需要 的 特征 作用 不 太一 样 。 在 搜索 广告 案例 中 可 以 发 现 ， 用 户 特征 (数据 集中 UserID ) 对 效 
果 提 升 不 大 ， 而 展现 位 置信 息 (数据 集中 Position ) 对 效果 提升 明显 。 而 在 展示 广告 场景 中 ， 
用 户 特征 作用 可 能 更 大 。 

此 外 ， 模 型 4 对 比 模型 2， 训 练 数据 增加 以 后 ， 特 征 数量 增加 明显 ， 从 9 887 394 到 15 985 071。 
这 里 特征 数量 增加 主要 是 广告 ID 和 广告 主 古 的 交叉 类 特征 , 模型 在 特征 表达 上 更 精准 了 , 覆盖 了 
更 多 场景 ， 范 化 能 力 更 好 。 由 于 2000 w 和 1000 w 对 应 使 用 的 数据 集合 有 较 大 变化 ， 这 里 的 AUC 
指标 不 太 可 比 。 点 击 率 预 估 场 景 中 , 我 们 通常 保留 所 有 的 正 样 本 ， 对 负 样 本 进行 采样 ， 同 时 也 会 
对 时 间 上 相对 比较 旧 的 样本 做 降 权 处 理 。 

MLlib 中 LBFGS 算 法 实现 上 的 正则 项 (regularization parameter ) 默认 是 0.0， 为 了 防止 过 拟 合 
可 以 通过 setRegParam 接 口 进 行 修 改 ， 一 般 设 置 成 0.001。 

最 后 模型 是 否 上 线 ， 通 常 我 们 还 是 通过 不 同 模 型 中 线 上 A/B 测 试 的 效果 来 进一步 评估 。 

为 了 验证 测试 数据 集合 大 小 和 训练 时 间 的 关系 ， 我 们 分 别 测试 了 100 w 、1000 w、2000 w 这 
些 不 同 大 小 的 训练 集合 ， 和 迭代 50 次 的 训练 时 间 变 化 。 从 表 8-6 可 以 看 出 ， 训 练 时 间 基 本 上 随 着 训 
练 数据 集合 大 小 的 变化 线性 增加 。 在 Spark 平 台 上 ， 我 们 可 以 很 方便 地 通过 增加 硬件 资源 来 缩短 
训练 时 间 。 但 受 限于 算法 每 一 轮 近 代 的 广播 新 权重 和 收集 梯度 的 两 个 过 程 ，driver 节 点 可 能 是 一 
个 瓶颈 ， 具 体 情 况 要 综合 看 driver 节 点 机 器 负载 来 调整 集群 硬件 配置 。 


表 8-6 不同 大 小 数据 集合 的 耗 时 对 比 


应 用 ID 核 数 每 个 节点 内 存 用 户 名 状态 运行 时 长 
CApplication ID) (Core) (Memory per Node) (User) (State) (Duration) 
app-20151202193002-0003 32 24.0 GB hadoop FINISHED 1.5 min 
app-20151202165133-0002 32 24.0 GB hadoop FINISHED 23 min 
app-20151202154403-0001 32 24.0 GB hadoop FINISHED 58 min 


分 析 不 同 Job 的 耗 时 ， 我 们 发 现时 间 主 要 集中 耗 在 treeaAggregate 和 broaqcast 等 过 程 ， 这 点 
符合 预期 。 在 实际 应 用 过 程 中 ， 我 们 还 可 以 结合 Pipeline API 完 成 更 多 工作 ， 比 如 模型 交叉 验证 等 。 

事实 上 , 要 做 好 广告 点 击 率 预告 , 还 有 很 多 的 工作 要 做 ,也 需要 不 小 的 人 力 投 入 ,这 里 只 是 
做 了 一 个 简单 的 案例 ， 供 新 手 学 习 。 同 时 ， 从 这 个 案例 也 可 以 看 到 ，MLlib 的 LBFGS 算 法 在 千 万 
维 级 别 特征 的 LR 模 型 训练 上 ， 已 经 达到 工业 应 用 的 初步 要 求 。 
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为 了 方便 那些 没有 使 用 过 Scala 语 言 的 读者 , 本 章 带 大 家 快速 了 解 一 下 。 有 基本 编程 经 验 的 读 
者 在 学 习 完 本 章 后 ， 就 可 以 用 Scala 编 写 简单 的 Spark 程 序 了 。 


Scala 语言 基础 


本 节 介 绍 Scala 语 言 的 基础 知识 ， 包 括 安装 、 变 量 命名 、 表 达 式 、 基 本 类 型 、 控 制 结构 等 。 


关于 Scala 


Scala 是 “Scalable Language” 的 缩写 ， 是 一 门 可 伸缩 的 语言 ， 即 可 以 当 脚 本 使 用 ， 又 可 以 构 
造 大 型 系统 ( 比如 Spark )。Scala 非 常 完美 地 整合 了 面向 对 象 编程 和 函数 式 编程 两 种 特性 。 它 即 支 
持 纯 面向 对 象 编程 ,每 一 个 值 都 是 对 象 ， 次 运算 都 是 一 次 方法 调用 ,而且 同 时 支持 函数 式 编 
程 , 所 有 的 函数 都 是 对 象 。Scala 是 一 种 静态 语言 , 通过 编译 时 的 代码 检查 来 保证 代码 的 安全 性 和 
一 致 性 ， 同 时 也 可 以 像 动 态 语言 那样 支持 交互 式 编程 。Scala 运 行 于 VM 之 上 ， 所 有 Scala 代 码 最 
终 都 会 转换 成 Java 字 节 码 来 运行 。 并且，Scala 与 Java 无 缝 集成, 在 Scala 中 可 以 像 调 用 Scala 库 一 样 
来 调用 Java 库 。 


Scala 安装 


第 一 步 ， 从 Java 官 方 网 站 下 载 JDK 并 安装 (支持 1.6 及 以 上 版 本 )， 并 设置 好 JAVA_HOME 环 境 


第 二 步 ， 从 Scala 官 方 网 站 http://www.scala-lang.org/download/ 下 载 最 新 的 Scala 语 言 安装 包 ， 
解压 缩 后 可 以 直接 使 用 。 可 执行 文件 在 bin 目 录 下 ， Scala 是 交互 式 解 释 器 ，scalac 是 编译 器 QE: 
windows 下 加 .bat 后 级 )。 此 外 ， 官 网 上 也 有 IDE 可 供 下 载 。 


第 三 步 ， 进 入 Scala 交 互 式 编程 环境 ，Linux 下 可 以 执行 ./bin/scala。 


$ scala 
Type :help for more information. 
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scala» 


基础 知识 


口 Hello world 程 序 
在 Scala 交 互 式 编程 环境 下 ， 直 接 输入 Scala 代 码 : 


Scala» println("Hello, world!") 
Hello, world! 


口 表达 式 


scala» 1 + 1 
res0: Int - 2 


res0 是 解释 器 自动 生成 的 变量 名 ， 用 来 代表 表达 式 的 计算 结果 。 它 是 Int 类 型 ， 值 为 2。 


注意 ”Scala 中 几乎 一 切 都 是 表达 式 。 


口 变量 
Scala 有 两 种 变量 : val, varo 
val 表 示 常 量 , 一 旦 定义 就 不 能 重新 赋值 ， 比 如 上 面 的 1+1 等 价 于 : 


scala» val two = 1 + 1 
two: Int - 2 


two 被 定义 为 val 类 型 ， 不 能 再 被 赋值 ， 下 面 的 语句 会 报错 : 
Scala» two = 2 


«console»:8: error: reassignment to val 
two - 2 


^ 


var 表 示 变 量 , 定义 之 后 还 可 以 重新 赋值 。 对 于 上 面 的 例子 ， 如 果 想 重新 赋值 ， 可 以 用 var: 


Scala» var two = 1 + 1 
two: Int - 2 


此 时 可 以 重新 赋值 : 


scala> two = 2 
two: Int - 2 


OQ 标识 符 
标识 符 用 于 变量 名 、 类 名 等 。Scala 有 4 种 标识 符 ， 如 下 。 
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m 字母 数字 式 。 大 多 数 语言 使 用 的 形式 ， 以 字母 或 下 划 线 开头 ， 后 面 接 字 母 、 数 字 或 下 
划 线 。 一 般 遵循 驼峰 命名 法 ， 比 如 tostring、Hashset， 而 非 tostring。 

四 运 算 符 式 。 非 字母 、 数 字 的 可 打印 ASCI 字 符 都 算 ， 比 如 数学 运算 符 +-*/%<>， 一 般 用 
于 方法 定义 。 

里 混合 式 。 格 式 为 “字母 数字 式 标识 符 运算 符 式 标识 符 "”， 比 如 unary+，myvar=。 

m 文字 式 。Scala 支 持 使 用 任意 字符 ( 比如 关键 词 ) 作为 标识 符 ， 用 ` 包 起 来 ， 里 面 的 任何 
字符 都 会 保留 原样 ， 比 如 `x`、`<clinit>`、`yielgd.`。 


注意 ”标识 符 区 分 大 小 写 。 


口 面向 对 象 

Scala 是 面向 对 象 的 ， 每 一 个 值 都 是 对 象 ， 每 一 次 运算 都 是 一 次 方法 调用 。 

比如 表达 式 1+2, 其 中 1 和 2 都 是 Int 对 象 , + 运算 符 对 应 的 是 Int 的 + 方法 。 所 有 1+2 都 相当 于 
Int 类 型 对 象 1 调 用 :+ 方 法， 参数 是 Int 类 型 2。 

所 以 下 面 两 个 表达 式 是 等 价 的 : 


Scala» val three = 1 + 2 
three: Int = 3 


scala» val three = (1).-«(2) 
three: Int - 3 


口 函数 
我 们 可 以 用 def 创建 函数 : 函数 体 超过 1 行 时 ， 可 以 用 {} 包 库 起 来 。 


scala» def addOne(x: Int): Int = x + 1 
addOne: (x: Int)Int 


函数 aGdone 接 受 1 个 Int 类 型 的 输入 参数 ( 类 型 必须 显 式 定义 )， 返 回 Int 类 型 。 
调用 函数 


scala» addOne(1) 
resi: Int - 2 


函数 体 超过 1 íT, RTDUH GEREK., 


注意 ，Scala 支 持 函 数 式 编程 ， 且 函数 像 其 他 值 一 样 是 “一 等 公民 ”。 


口 匿名 函数 
我 们 可 以 创建 匿名 函数 : 
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Scala» (x: Int) -» X Ll 
res2: Int e» Int = «füncttronl» 


并 使 用 系统 自动 生成 的 函数 名 来 调用 它 : 


scala> res2(1) 
res3: Int - 2 


匿名 函数 可 以 赋值 给 一 个 值 ， 因 为 Scala 是 面向 对 象 的 ， 一 切 都 是 对 象 ， 函数 也 是 ; 


Scala» val addOne = (x: Int) => x + 1 
addOne: Int => Int = «functionl» 


scala» addOne(1) 
res4: Int - 2 


Scala 中 ,表达 式 结 尾 处 的 ;不 是 必需 的 ,你 只 要 确保 Scala 可 以 准确 区 分 出 不 同 的 表达 式 并 且 
Ayr Hl SCRI RT s 


基本 类 型 
Scala 的 基本 类 型 有 Byte、 short、 Int、Long、 Char、 String、 Float、 Double、 Boolean。 
Scala 文 持 隐 式 类 型 转换 ,所 以 虽然 是 静态 语言 , 但 使 用 体验 上 接近 动态 语言 。 比 如 ,基本 类 
型 大 部 分 不 用 显 式 定义 就 可 以 直接 使 用 。 
数字 一 般 为 Int 类 型 ， 以 0x 开 头 表示 十 六 进 制 ， 以 L 结 尾 表 示 Long。 


scala> 3 
res0: Int = 3 


scala» 0x0F 
resi: Int - 15 


scala» 3L 
res2: Long - 3 


Byte、Short 类 型 需要 显 式 指定 : 


scala> val little: Byte = 3 
little: Byte = 3 


scala> val little: Short = 3 
little: Short - 3 


Char 和 string 支 持 \ 转 义 : 


Scala» val a = 'a' 
a: Char - a 


Scala» val str = "Hello \101" 
Str: String - Hello A 
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带 小 数 点 形式 的 默认 为 Douple 类 型 ， 以 F 结 尾 表示 Float: 


scala> val pi = 3.14F 
pi: Bloat 2e 3.04 


Scala» val pi - 3.14 
pi: Double - 3.14 


控制 结构 

Scala 内 置 的 控制 结构 有 if 、while、for、try、match， 而 且 Scala 的 可 伸缩 性 还 支持 通 ; 
库 的 形式 扩展 控制 结构 。 

另外 ， 每 一 个 控制 结构 也 都 是 表达 式 ， 是 有 值 的 。 

O if 表达 式 

val filename = 


if (!args.isEmpty) args(0) 
else "default.txt" 


id 


O while 循 环 表 达 式 


// 计算 最 大 公约 数 
def gcdLoop(x: Long, y: Long): Long = { 


var a= x 

var b-y 

while (a !- 0) { 
val temp - a 
a-b$a 
b = temp 

} 

b 


} 


Ddo...while 


// 遍历 读 文 件 
var line - "" 
do { 
line - readLine() 
println("Read: "+ line) 
) while (line !- "") 


口 for 表 达 式 


Scala» for (i »1 to 4) 
println("Iteration "+ i) 


口 try...catch...finally 


scala» def g(): Int = tryí(1/0)catch(case ex: ArithmeticException => 2) finally 


E 
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(println("finally")) 
g: ()Int 


scala» g() 


finally 
res6: Int - 2 


口 actor“ 控 制 结构 ” 


actor 是 基于 消息 传递 的 并 发 计算 模型 ，Scala 也 支持 , 使 用 起 来 不 像 方法 调用 , 倒是 像 某 种 控 
制 结构 。 其 实 它 不 是 Scala 内 置 的 ， 而 是 通过 库 来 实现 的 ， 这 也 是 Scala 可 伸缩 性 的 典型 代表 。 


actor. 
var sum = 0 
loop { 


receive ( 
case Data(bytes) -» sum += hash(bytes) 
case GetSum(requester) -» requester ! sum 


基本 数据 结构 
Scala 中 常用 的 数据 结构 有 数组 、 列 表 、 元 组 、set 、Map 等 。 
1. 数组 Array 
成 员 可 修改 ,下 标 从 0 开始 ， 并 通过 () 而 不 是 [] ) 来 引用 : 


val greetStrings = new Array [String] (3) 


greetStrings(0) = "Hello" 
greetStrings(1) = ", " 
greetStrings(2) = "world!\n" 
2. 列表 List 

3 x 
成 员 只 读 : 

Scala» val numbers = List(1, 2, 3, 4) 
numbers: List[Int] = List(1, 2, 3, 4) 


Scala» numbers(0) 
res3: Int - 1 


3. 元 组 Tuple 
成 员 只 读 ， 与 List 非 常 类 似 ， 但 成 员 可 以 是 不 同类 3 


Scala» val hostPort = ("localhost", 80) 
hostPort: (String, Int) - (localhost, 80) 


i 
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不 能 用 () 方 式 来 访问 成 员 ， 而 是 “_ 下 标 ”， 下 标 从 1 开始 : 


Scala» hostPort. 1 
res5: String - localhost 


Scala» hostPort. 2 
res6: Int - 80 


4. 集合 set 

3 ^e > 

没有 重复 的 成 员 : 

scala» Set(1, 1, 2) 

res0: scala.collection.immutable.Set[Int] - Set(1, 2) 

5. 映射 Map 

scala» val m = Map(1 -> "one", 2 -> "two") 

m: scala.collection.immutable.Map[Int,String] = Map(1 -> one, 2 -> two) 


scala» m(2) 
res9: String = two 


主意 ， 这 里 的 m 是 immutable 只 读 。 若 要 创建 读 写 版 本 ， 需 要 显 式 指定 类 型 : 


scala» val m = scala.collection.mutable.Map[Int,String](1 -> "one", 2 -> "two") 
m: scala.collection.mutable.Map[Int,String] - Map(2 -» two, 1 -» one) 


添加 元 素 : 


Scala» m += (3 -> "three") 
res5: m.type = Map(2 -> two, 1 -> one, 3 -> three) 


或 者 直接 给 键 赋值 : 


scala> m(3) = "three" 


scala> m -= 2 
res11: m.type = Map(1 -> one, 3 -> three) 


面向 对 象 


Scala 语 言 支持 完整 的 面向 对 象 编程 ， 类 似 C++ 或 Java， 包 括 类 继承 、 多 态 等 。 


定义 类 class 


类 用 关键 字 class 来 定义 : 


class Hello( a: Int) { 
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private val a = a; 
println('inrtralds2ing..4 a 7) t); 
def Add(b: Int): Int = a + b; 

def this() = this(0); 


j 
默认 构造 函数 不 需要 单独 定义 ， 直 接 放 在 class 的 定义 中 。 其 中 ，private 表 示 私 有 。 我 们 
也 可 以 添加 其 他 构造 函数 ， 定 义 都 是 def this， 只 是 参数 不 一 样 。 

下 面 用 new 来 创建 类 的 实例 : 

Scala» val a = new Hello(1) 


initializing...(1) 
a: Hello = HelloeGfl11a7de 


继承 


类 继承 用 关键 字 extends 表 示 ， 下 面 的 类 Hello2 继 承 自 Hello: 


class Hello2(a: Int) extends Hello(a) ( 
def Add(b: Int, c: Int): Int -a«-* b t c; 


) 
继承 的 同时 重 载 了 aaa 方 法 : 


Scala» val h2 = new Hello2(1) 
initializing...(1) 
h2: Hello2 = Hello282645822d 


scala» h2.Add(1) 
res21: Int - 2 


scala» h2.Add(1,2) 
res22: Int - 4 


单 实例 对 象 


Scala 不 支持 static 变 量 、 成 员 , 但 提供 了 单 例 对 象 ， 用 object 来 定义 ， 类 似 于 OO 的 单 实 
例 模式 : 


object Timer { 
var count - 0 
def currentCount(): Long - ( 
count += 1 
count 


} 


此 时 不 需要 new， 直 接 使 用 : 
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Scala» Timer.currentCount() 
res0: Long - 1 


单 例 对 象 可 以 和 类 具有 相同 的 名 字 ， 放 在 同一 个 源 文件 中 的 话 ， 它 们 可 以 互相 访问 彼此 的 


private 变 量 、 方 法 : 


class Bar(foo: String) 
object Bar ( 
def apply (foo: String) = new Bar(foo) 


Scala 语 言 最 大 的 特色 是 函数 式 编程 ， 能 让 程序 非常 简洁 易 读 。 


匿名 函数 
匿名 函数 是 函数 式 编程 最 重要 的 特色 之 一 。 


Scala» (x: Int) > x I 
res0: Int => Int = «functionl» 


scala» res0(10) 
resi: Int = 11 


函数 在 Scala 中 是 一 等 公民 ， 可 以 赋值 给 变量 : 


Scala» var increase = (x: Int) =>x+1 
increase: (Int) -» Int - «function» 


Scala» increase(10) 
res2: Int - 11 


匿名 函数 作为 参数 
这 是 匿名 函数 最 常见 的 使 用 形式 ; 


Scala» val someNumbers = List(1, -3, -5, 9, 0) 
someNumbers: List[Int] List(1, -3, -5, 9, 0) 


Scala» someNumbers.filter((x) -» x » 0) 
res4: List[Int] - List(1, 9) 


匿名 函数 的 定义 可 以 再 简洁 一 些 ， 比 如 去 掉 括 号 : 


Scala» someNumbers.filter(x -» x > 0) 
res4: List[Int] - List(1, 9) 
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如 果 匿 名 函数 的 参数 只 被 使 用 一 次 


Scala» someNumbers.filter(  » 0) 
res5: List[Int] - List(1, 9) 

sm Xu ue 

EIE 


JRH: 


还 可 以 更 简洁 ， 直 接 写 函数 体 ， 用 _ 代 表 一 个 参数 : 


因为 函数 也 是 对 象 ， 可 以 像 函 数 变 量 一 样 巾 套 定义 : 


xi 


import scala.io.Source 
def processFile(filename: 
def processLine(line: 
printin(1line) 


String) 


{ 
String) ( 


j 
Source.fromFile(filename). 


} 


processFile("t.scala") 


分 应 用 函数 
调用 函数 的 过 程 ， 不 需要 一 
下 面 是 一 个 普通 求 和 的 函数 ， 需 要 两 个 输入 参数 : 


Scala» def adder(m: Int, n: Int) = 
adder: (m: Int,n: Int)Int 


addq2 是 定义 的 部 分 应 用 
没有 准备 好 的 另外 一 个 参数 : 


= adder(2, . :Int) 
«functioni» 


Scala» val add2 
add2: (Int) -» Int - 


调用 部 分 应 用 函数 ， 输 入 剩 下 的 那个 参数 ， 完 成 整 


Scala» add2 (3) 
resi: Int - 5 


柯 里 化 函数 


次 准备 好 全 部 参数 ， 而 是 可 以 分 多 步 提 供 ， 


函数 (partially applied function )， 只 输入 一 个 参数 2 ， 


getLines.foreach(processLine) 


来 看 下 面 的 例子 。 


使 用 _ 代 表 和 暂时 


&^*aaderJAu HH 


柯 里 化 〈currying， 又 译 为 “ 卡 瑞 化 ”或 “加 里 化 ” ) 是 把 接受 多 个 参数 的 函数 变换 成 接受 


数 的 第 一 个 参数 ) 的 函数 ， 并 且 返 


单个 参数 ( 最 初 函 
的 技术 。 
比如 ， 在 没有 使 用 柯 里 化 时 ， 加 法 函 
一 次 准备 好 两 个 参数 : 


数 可 能 是 像 下 面 这 样 定义 的 ， 


回 接受 余下 的 参数 而 且 返 回 结 果 的 新 函数 


调用 plainoldqsum 时 ， 
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Scala» def plainOldSum(x:Int,y:Int) = x + y 
plainOldSum: (x: Int, y: Int)Int 


scala» plainOldSum(1,2) 
res0: Int = 3 


而 使 用 柯 里 化 之 后 , 不 需要 一 次 性 准备 好 两 个 参数 ， 而 是 可 以 分 两 次 传人 。 这 是 柯 里 化 之 后 
的 加 法 定义 : 


Scala» def curriedSum(x:Int)(y:Int) = Xx + y 
curriedSum: (x: Int) (y: Int)Int 


可 以 一 次 输入 两 个 参数 来 调用 : 


Scala» curriedSum (1) (2) 
res0: Int = 3 


但 其 实 这 里 是 有 两 次 调用 ，curriedsum (1) 调 用 返回 一 个 新 的 函数 ， 然 后 给 这 个 新 的 函数 
传人 参数 2 并 调用 。 因 此 我 们 可 以 显 式 依次 调用 ( 注意， 定义 onePlus 时 使 用 了 部 分 应 用 函数 符 


F): 


Scala» val onePlus = curriedSum(1) 
onePlus: Int => Int = «functionl» 


Scala» onePlus (2) 
resi: Int - 3 


通过 柯 里 化 ， 你 还 不 可 以 定义 多 个 类 似 于 onePlus 的 函数 ， 比如 twoPlus: 


scala» val twoPlus = curriedSum(2) _ 
twoPlus: Int => Int = «functionl» 


Scala» twoPlus(3) 
res2: Int = 5 


S & PX ois a 


Scala 提 供 了 一 些 功 能 函数 以 方便 对 集合 对 象 C EG HlArray. List. Tuple, Set, Map) 进 
行 遍 历 操作 。 功 能 函数 的 输入 一 般 是 函数 ， 可 能 没有 返回 值 ， 如 果 有 的 话 一 般 是 同类 型 值 的 新 
集合 。 

以 List 为 例 (其 他 集合 与 此 基本 相同 ): 


scala> val numbers 
numbers: List[Int] 


List(1, 2, 3, 4) 
List(1, 2, 3, 4) 


C) map 


map 对 列表 中 的 每 个 元 素 应 用 一 个 函数 ， 返 回应 用 后 的 元 素 所 组 成 的 列表 。 
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scala> numbers.map((i: Int) => i * 2) 
res0: List[Int] = List(2, 4, 6, 8) 


D foreach 


fozreach 与 map 很 像 ， 但 没有 返回 值 。foreach 仅 用 于 有 副作用 (side-effects ) 的 函数 。 


scala» numbers.foreach((i: Int) -» i * 2) 
DQ filter 
filter 用 于 过 滤 成 员 ， 返 回 新 的 集合 ， 其 中 只 保留 计算 结果 为 Erue 的 元 素 : 
scala» numbers.filter((i: Int) => i $ 2 -- 0) 
res0: List[Int] - List(2, 4) 
高 级 


本 节 介 绍 一 些 高 级 功能 ， 但 这 些 功 能 也 是 Scala 编 程 时 经 常 使 用 的 。 


包 用 于 管理 各 种 名 称 ， 与 Java 中 的 包 概 念 非常 类 似 ， 但 更 灵活 。 
在 文件 头 部 用 package 定 义 包 : 
package org.scala.example 
object Color( 
val BLUE - "Blue" 


val RED - "Red" 
} 


然后 可 以 通过 包 名 直接 访问 名 称 : 


println("the color is: " + org.scala.example.Color.BLUE) 


或 者 先 import， 再 访问 : 


import org.scala.example.Color 
println("the color is: " + Color.BLUE) 


模式 匹配 


Scala 语 言 的 模式 匹配 功能 类 似 于 其 他 语言 的 switch. . .case， 但 功能 更 强大 。 
我 们 可 以 像 使 用 switch. . .case 一 样 来 使 用 模式 匹配 : 


val times = 1 
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times match { 


case 1 => "one" 
case 2 => "two" 
case _ => "some other number" 

} 

或 者 : 

times match { 
case i if i -- 1 -» "one" 
case i if i -- 2 -» "two" 
case | => "some other number" 


) 
更 常见 的 使 用 方法 是 对 象 匹配 : 


def bigger(o: Any): Any = ( 
o match ( 
case i: Int if i» 0-» i- 1 
case i: Int => i + 1 
case d: Double if d» 0.0 => d - 0.1 
case d: Double => d + 0.1 
case text: String -» text + "s" 


) 
j 
val v42 - 42 


Some(3) match ( 
case Some(^v42^) => println("42") 
case _ => println("Not 42") 


Scala 作为 脚本 运行 


Scala 语 言 伸缩 性 很 强 ， 结 合 函 数 式 编程 代码 简洁 的 特点 ， 完 全 可 以 当 作 脚本 语言 来 使 用 。 


将 以 下 内 容 保存 到 文件 hello.scala: 
d!/usr/bin/env scala 
println("hello, " Fam 
给 hello.scala 添 加 可 执行 权限 : 

> chmod +x hello.scala 


然后 像 脚本 一 样 执行 : 


> ./hello.scala scala 


+ args(0) + 


hello, scala! 
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Scala 应 用 程序 


最 后 我 们 用 Scala 来 写 一 个 应 用 程序 。 


只 有 单 实例 对 象 才能 作为 Scala 应 用 程序 的 入 口 ， 而 且 内 部 必须 有 一 个 main 方 法 ，main 有 是 
仅 有 一 个 Array [String] 类 型 的 参数 ， 并 日 返回 Unit。 


将 以 下 代码 保存 到 文件 Hello.scala: 


object Hello { 
def main(args: Array[String]) ( 
for ( arg «- args ) 
println("Hello, " + arg) 


} 


用 scalac 命 令 来 编译 源 文件 : 


> scalac Hello.scala 


可 以 看 到 这 里 生成 了 3 个 .class 文 件 : 


total 16 

-rw-r--r-- 1 root root 1312 Jun 7 00:55 Hello$$anonfun$main$1.class 
-rw-r--r-- 1 root root. 613 Jun 7 00:55 Hello.class 

-rw-r--r-- 1 root root 788 Jun 7 00:55 Hello$.class 

-rw-r--r-- 1 root root 126 Jun 7 00:51 Hello.scala 


运行 程序 ， 方 法 是 “scala < 单 例 对 象 名 > 命令 行列 表 ”: 


> Scala Hello scala spark 
Hello, scala 
Hello, spark 


小 结 


本 附录 的 目的 只 是 帮助 从 没 接触 过 Scala 的 读者 快速 了 解 Scala 的 基础 语法 ， 借 此 帮助 读者 有 
友 们 在 阅读 完 本 章 内 容 之 后 ， 消 除 阅读 本 书 的 示例 代码 ， 或 者 查询 官方 API 时 的 障碍 。 如 果 要 进 
一 步 学 习 ， 大 家 可 以 阅读 Scala 语 言 的 官方 指导 手册 。 
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相 较 于 其 他 大 数据 解决 方案 ，Spark 的 一 大 特点 便 是 擅长 在 单一 框架 内 搭建 一 体 化 大 数据 流水 线 。 本 书 以 
Spark 1.4 为 蓝本 ， 既 带 读者 概览 Spark 的 各 个 组 件 ， 又 从 实际 出 发 ， 给 出 了 各 种 典型 案例 的 解决 思路 ， 尤 其 适合 
初学 者 快速 把 握 Spark 的 全 貌 和 各 组 件 的 基本 特点 ， 从 而 结合 实际 ， 有 针对 性 地 发 挥 Spark 全 能 一 体 的 优势 。 


一 一 连城 (Apache Spark committer，Databricks 软件 工程 师 ) 


Spark 作 为 一 个 专门 处 理 分 布 式 大 数据 的 有 力 工具 ， 与 “机 器 学 习 ” 碰 撞 出 了 火花 。 本 书 拿 出 一 章 重点 介绍 
了 计算 广告 中 一 个 核心 模型 一 一 点 击 率 (CTR) 预 估 的 逻辑 回归 一 一 在 MLlib 中 的 完整 实现 ， 为 “Spark + 机 器 学 
习 ” 提 供 了 很 好 的 范例 。 相 信 这 本 全 面 介绍 Spark 的 实用 宝典 ， 会 为 读者 提供 很 大 帮助 。 


一 一 胡 烟 (阿里 巴巴 B2B 搜 索 联盟 算法 负责 人 ) 


以 Hadoop 为 核心 的 技术 ， 主 导 了 过 去 十 多 年 大 数据 技术 的 发 展 ， 我 在 小 米 经 历 了 小 米 大 数据 团队 的 从 无 到 
有 ， 见 证 了 从 刚 开 始 Hadoop 支 持 所 有 业务 ， 到 后 来 大 量 的 业务 开始 使 用 Spark 的 过 程 ， 深 刻 体会 到 Spark 作 为 后 
起 之 秀 ， 在 近 几 年 的 发 展 突飞猛进 ， 大 有 取代 Hadoop 之 势 。 一 本 好 的 技术 书 ， 既 要 能 讲 清楚 技术 背后 的 原理 ， 
又 要 能 说 明白 其 应 用 场景 ，《Spark 最 佳 实践 》 这 两 方面 都 做 到 了 ， 是 学 习 Spark 技 术 不 可 多 得 的 好 书 。 


一 一 武 泽 胜 ( 棒 米 科技 联合 创始 人 &CTO) 


数据 已 经 成 为 工业 革命 的 重要 原材料 ， 我 们 无 法 想象 一 个 没有 数据 存在 的 “真空 ”环境 。 可 以 说 ， 我 们 及 我 
们 周边 的 事物 都 只 是 数据 繁衍 的 一 个 载体 ;如何 利用 好 这 个 原材料 ， 加 工 好 这 个 原材料 ， 挖 掘 好 这 个 原材料 ， 理 
解 好 这 个 原材料 ， 已 经 成 为 一 个 核心 竞争 力 。 

作为 Hadoop 系 的 重要 补充 ，Spark 更 是 为 大 数据 处 理 虎 上 添 翼 ， 尤 其 是 在 更 加 复杂 的 数据 和 迭代 技术 方面 。 
作者 结合 多 年 实践 著 就 本 书 ， 可 以 帮 你 快速 进入 这 一 “ 圣 殿 ”， 人 少 走 弯路 ， 更 加 快速 地 决胜 干 里 。 


一 一 -I EO 腾讯 数据 平台 部 精准 推荐 中 心 总 监 ) 


面 对 诸多 的 大 数据 技术 ， 如 何 能 够 快速 学 习 ? 本 书 的 作者 们 试 着 给 Spark 初 学 者 设计 了 一 条 路 径 : 在 深入 讲 
解 理 论 的 同时 ， 引 导读 者 利用 实际 可 运行 的 数据 案例 低 成 本 地 在 实践 中 学 习 。“ 纸 上 得 来 终 觉 浅 ， 绝 知 此 事 要 躬 
行 ”， 学 习 Spark 技 术 的 有 效 方式 就 是 在 实际 的 Spark 环 境 中 “ 玩 ” 数 据 。 
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看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebookQturingbook.com, 
在 这 可 以 找到 我 们 : 
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